Надежность тестовых методик. Надежность как одна из основных характеристик теста. Виды надежности. Теоретическое основание Кронбаха

План лекции

1. Надежность и ее виды.

2. Процедуры определения ретестововй надежности.

3. Определение одномоментной надежности теста

Тема 13. Надежность теста. Ее виды.

Процедуры определения надежности теста

(семинарско-практическое - 8 часов)

Вопросы для обсуждения:

1. Понятие надежности. Виды надежности.

2. Ретестовая надежность тестовой методики. Процедуры ее определения: преимущества и недостатки.

3. Одномоментная надежность теста. Варианты определения одномоментной надежности: метод параллельных форм, метод расщепления, метод анализа согласованности ответов по всем пунктам методики (метод Кьюдера-Ричардсона). Преимущества и недостатки каждого из них.

3. Надежность отдельных пунктов теста. Характеристика требований, обеспечивающих надежность отдельных пунктов теста: объективность, валид-ность, устойчивость, сила/трудность, дискриминативность. Процедуры опреде­ления надежности отдельных пунктов теста

Практические задания:

1) расчет ретестовой надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера;

2) расчет одномоментной надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера.

1. Надежность и ее виды.

В традиционной тестологии термин «надежность» означает относ тельное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место, занимаемое испытуемым в группе.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений. Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания по предъявлению методики испытуемым и т.д.)

меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.д.);

3) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);

4) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утомление и т.д.);

5) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т.п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важ­нейших средств повышения надежности психодиагностической ме­тодики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенно­сти контакта с испытуемыми, порядок предъявления заданий и т.д. При такой стандартизации процедуры исследования можно сущест­венно уменьшить влияние посторонних случайных факторов на ре­зультаты теста и таким образом повысить их надежность.

В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах ив какой мере они могут быть приписаны случайным ошибкам. В узком методическом смысле под надежностью понимают степень согласованности результатов теста при повторном его использовании.

На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой.

В настоящее время надежность все чаще определяется на наибо­лее однородных выборках, т.е. на выборках, схожих по полу, воз­расту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надеж­ности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Так как все виды надежности отражают степень согласованное двух независимо полученных рядов показателей, то математике статистический прием, с помощью которого устанавливается надежность методики, - это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот. Важнейшим средством повышения надежности ПД методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановка и условия работы, характер инструкции, временные ограничения, способы и особенности контакта с испытуемым и пр.) существенно повышается надежность теста.

Надежность тесно связана с валидностью. Надежность – это устойчивость процедуры относительно объектов исследования. Валидность – устойчивость относительно измеряемых свойств объекта (предмета измерения). Устойчивость теста относительно объектов исследования является необходимым, но не достаточным условием его устойчивости относительно измеряемых свойств объектов. То есть, надежность является необходимым, но не достаточным условием валидности. Валидность может качественно и количественно превышать надежность.

В данном пособии при описании видов надежности основной упор делается на работы К.М. Гуревича (1969, 1975, 1977, 1979), который, проведя тщательный анализ зарубежной литературы по это£ проблеме, предложил толковать надежность как:

1) надежность самого измерительного инструмента;

2) стабильность изучаемого признака;

3) константность, т.е. относительную независимость результатов от личности экспериментатора.

Показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности; показатель, харак­теризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния личности эксперимен­татора - коэффициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности.

1. Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологиче­ского измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говоря­щего о его однородности (или гомогенности), используется так на­зываемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух по­лученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корре­ляции будет достаточно высоким.

Можно делить задания и другим путем, например сопоставить первую половину теста со второй, первую и третью четверть - со второй и четвертой и т.п. Однако «расщепление» на четные и не­четные задания представляется наиболее целесообразным, посколь­ку именно этот способ наиболее независим от влияния таких фак­торов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный ко­эффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Но на начальном этапе разработки диагностической методики можно получить невысокие коэффициенты надежности, например, порядка 0,46-0,50. Это означает, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей спе­цифичности ведут к снижению коэффициента корреляции. Такие задания необходимо специально проанализировать и либо переде­лать их, либо вообще изъять.

Чтобы легче было установить, за счет каких заданий снижаются коэффициенты корреляции, необходимо проанализировать таблицы с выписанными данными, подготовленными для корреляций. Следу­ет отметить, что любые изменения в содержании методики - изъя­тие заданий, их перестановка, переформулировка вопросов или от­ветов требует заново высчитывать коэффициенты надежности.

При ознакомлении с коэффициентами надежности не следует за­бывать, что они зависят не только от правильного подбора заданий с точки зрения их взаимосогласованности, но и от социально-психологической однородности той выборки, на которой проверя­лась надежность измерительного инструмента.

2. Определение стабильности изучаемого признака. Опре­делить надежность самой методики - это не значит решить все во­просы, связанные с ее применением. Нужно еще установить, на­сколько устойчив, стабилен признак, который исследователь наме­рен измерять. Колебания признака не должны иметь непредсказуемого характера. Если не ясны причины резких колебаний, то такой признак не может быть использован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойств используется прием, известный как тест - ретест. Он заключаете в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико Поэтому необходимо соблюдать требования единообразия процедуры проведения эксперимента.

При определении стабильности признака большое значение имеет промежуток времени между первым и повторным обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого, но не слишком, так как возможно, что испытуемые помнят свои ответы. В тестологической литературе наиболее часто называются вре­менные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные измене­ния и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.

Если тест исследует свойство, которое в период тестирования находится в процессе интенсивного развития (напри­мер, умение проводить обобщения), то коэффициент стабильности мо­жет оказаться невысоким, но это не следует истолковывать как недос­таток теста. Такой коэффициент стабильности должен интерпретиро­ваться как показатель определенных изменений, развития исследуемого свойства. Совсем другое требование предъявляется к коэффициенту ста­бильности, если автор методики считает, что измеряемое свойство уже сформировано и должно быть достаточно устойчивым. Коэффи­циент стабильности в этом случае должен быть достаточно высоким (не ниже 0,80).

Таким образом, вопрос о стабильности измеряемого свойства ре­шается не всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.

3. Определение константности, т.е. относительной независи­мости результатов от личности экспериментатора. Поскольку мето­дика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию лич­ности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правила­ми и примерами, указывающими, как проводить эксперимент, рег­ламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуе­мый в своем отношении к опыту всегда отразит то, как сам экспе­риментатор к этому опыту относится. . Если под воздействием но­вого экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздей­ствие экспериментатора на испытуемых различно: одни стали рабо­тать лучше, другие хуже, а третьи так же, как и при первом экспе­риментаторе. Другими словами, если испытуемые при новом экспе­риментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых усло­виях на одной и той же выборке испытуемых, но разными эксперимен­таторами. Коэффициент корреляции не должен быть ниже 0,80.

2. Определение ретестовой надежности.

НАДЕЖНОСТЬ РЕТЕСТОВАЯ - ха­рактеристика надежности психодиагно­стической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надеж­ность в этом случае вычисляется по соот­ветствию результатов первого и второго обследований или по сохранению ранго­вых мест испытуемых в выборке при ретесте. Коэффициент надежности (г () соответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкалприменяет­ся коэффициент корреляции произведе­ния моментов Пирсона. Для шкал порядка в ка­честве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.

При характеристике ретестовой надежности особое зна­чение имеет временной интервал между первым и вторым обследованиями. С его увеличением показатели корреляции име­ют тенденцию к снижению, существенно повышается вероятность воздействия по­сторонних факторов - могут наступить закономерные возрастные изменения из­меряемых тестом свойств, произойти раз­личные события, влияющие на состояние и особенности развития исследуемых ка­честв. По этой причине при определении ретестовой надежности стараются выбирать непродолжи­тельные временные интервалы (до не­скольких месяцев), а при обследовании детей младшего возраста эти интервалы должны быть еще меньше, поскольку воз­растные изменения и развитие в этом слу­чае происходят еще быстрее.

Несмотря на указанную тенденцию, при получении характеристик теста про­водятся повторные испытания и с дли­тельным временном промежутком. Определение ретестовой надежности ограничивается анализом краткосрочных случайных изменений, характеризующих тест как измери­тельную процедуру, а не его отношение к исследуемой области поведения.

Наряду с очевидной простотой ретестовая надежность как метод определения надежности обла­дает существенными недостатками. Так, при повторном применении одних и тех же заданий, особенно при относительно непродолжительном временном интерва­ле между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуаль­ных результатов, хотя и не одинаково выраженному у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной вы­борке и, соответственно, ухудшению ко­эффициента надежности. Еще более за­метное воздействие на результаты анали­за надежности оказывает запоминание ис­пытуемыми отдельных решений, воспро­изведение в повторном обследовании пре­дыдущей картины правильных и непра­вильных решений. В этом случае резуль­таты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.

Один из путей устранения влияния тренировки на результаты оценки ретестовой надежности - формирование устойчивого навыка в ра­боте с соответствующей методикой перед проведением тест-ретеста. Однако коли­чество повторений теста при этом неиз­бежно возрастает, что приводит к увели­чению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, со­держащих большое количество элементов тестового материала.

Для других методик, очевидно, един­ственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоре­чие с определением надежности как ха­рактеристики теста.

Для большинства тестов общих спо­собностей характерно улучшение показа­телей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выпол­нения. Другим фактором увеличения рас­четных показателей Н. р. является отно­сительное замедление с возрастом темпа психического развития в области тех ха­рактеристик, которые могут стать объек­том измерения или влиять на результат теста. Благодаря этому, спустя время, со­ставляющее интервал ретеста, случайные искус­ственно завышает показатели Н. р. Эта закономерность требует отдельных изме­рений Н. р. в разных возрастных контингентах испытуемых, что особенно суще­ственно для методик, предназначенных для обследования в широком возрастном диапазоне.Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускаю­щих многократное повторное обследова­ние. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других мето­дик, отличающихся большим количеством пунктов.

3. Определение одномоментной надежности.

Одномоментная надежность теста. Понятие сопоставимых форм методи­ки. Варианты определения одномоментной надежности:

Метод параллельных форм.

Одни и те же испытуемые в выборке опре­деления надежности обследуются внача­ле с использованием основного набора заданий, а затем - с применением анало­гичных дополнительных наборов. Коэф­фициент надежности по типу параллельных форм мо­жет быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них пред­лагается форма А теста, а другой - фор­ма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.

Такая процедура обследования лише­на значительной части недостатков спосо­ба определения надежности ретестовой. Так как в параллельной форме ис­пользуется другой по содержанию мате­риал, возможность тренировки и запоми­нания отдельных решений уменьшается. Важнейшим преимуществом данного ме­тода является сокращение временного ин­тервала перед повторным обследованием. Основным показателем надежности параллельных форм является коэффициент корреляции между резуль­татами первичного и повторного обследо­ваний, который позволяет оценить как временную стабильность теста (собствен­но надежность), так и степень соответ­ствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.

Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только от­вечать одним и тем же требованиям, измеряя идентичные показатели и давая сход­ные результаты, но вместе с тем быть от­носительно независимыми друг от друга. На практике эта задача осуществима да­леко не для всех тестовых. Другим недостатком характеристики надеж­ности по типу Н. п. ф. является возмож­ность усвоения испытуемым принципа ре­шения, общего для основной и параллель­ной форм. Таким образом, в случае оцен­ки Н. п. ф. влияние тренировки и навыка, приобретаемого при повторном обследо­вании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.

Метод расщепления.

Наиболее простым и распространен­ным способом определения Н. ч. т. явля­ется метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту выполнение любого случайногонабора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отно­шению к тесту в целом).

Для оценки надежности методом рас­щепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласован­ность, Трудность заданий теста). Раз­деление объема заданий теста на сопоста­вимые части достигается:

Распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);

Распределением пунктов по принципу близости или равенства значений индексов трудности и дискриминативности.

При расщеплении тестов скорости применяется особая процедура группи­ровки заданий. Определяется минималь­ное время (t^J решения целого теста, за­тем отсчитываются половина и четвертая часть этого времени. Все испытуемые ра­ботают половину минимального времени, после чего ставят отметку против зада­ния, выполняемого в момент подачи сиг­нала, и продолжают работать еще чет­верть минимального времени. Коэффици­ент надежности в этом случае будет соответствовать степени корреляции между числом задач, решенных до первого сигна­ла (0,5t m ] n) и решенных за время между первым и вторым сигналами (0,25f mln).

Разделение заданий теста на равно­ценные половины является лишь частным случаем Н. ч. т. Вполне возможно рас­щепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутрен­ней согласованности.

При разделении всего набора заданий теста на любое количество групп для пра­вильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания те­ста должны быть в высокой степени од­нородны по содержанию и трудности (го­могенны). При гетерогенных задачах значения r t ниже истинных.



Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кьюдера-Ричардсона

где σ х - дисперсия первичных оценок те­ста, р - индекс трудности, выраженный в виде доли индекса трудности U деленного на 100, q = 1 - р, r pb - коэффициент дискриминации

При отсутствии коэффициента диск­риминации применим вариант формулы Кьюдера-Ричардсона:

Где ∑σ² ‑ сумма дисперсий результатов отдельных заданий. В практике психологической диагностики считается, что тест надежен, если r>0,6.

Характеристика надежности по типу частей теста имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных форм, главным образом благодаря отсутствию необходимости в повторном обследова­нии. Таким образом, снимается влияние многих посторонних факторов, в частно­сти тренировки, запоминания решений и т. д. Это обстоятельство определяет ши­рокое распространение метода Кьюдера-Ричардсона по сравнению с другими типами надежности. К недостаткам мето­да относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комби­нирования метода Кьюдера-Ричардсона с другими типа­ми характеристики надежности психоло­гической методики

4. Надежность отдельных пунктов теста.

Надежность отдельных пунктов теста. Характеристика требований, обес­печивающих надежность отдельных пунктов теста: объективность, валидность, устойчивость, сила/трудность, дискриминативность. Процедуры определения надежности отдельных пунктов теста.

Тест обычно считается надежным , если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.

надежность по внутренней согласованности: если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое.

Надежность ретестовая - предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных (не меньше 1 мес после 1, коэф кор больше 0,7).

Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами (СЛОЖНОСТЬ, 2 набора заданий).

Надежность частей теста определяется путем деления опросника на две части (обычно на четные и нечетные задания), после чего и рассчитывается корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.

наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные временные интервалы .

Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надежность - важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.

7.Валидность теста

Тест называется валидным , если он измеряет то, для измерения чего предназначен.

Очевидная валидность - описывает представление о тесте, сложившееся у испытуемого.

Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена

Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время.

Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.

Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин.

эмпирическая – рассчитывается величина статистической связи между результатами обследования одних и тех же испытуемых с помощью данной методики и известными методиками, измеряющими данное свойство.

Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест.

критериальная – количественная мера связи между полученными результатами тестирования и внешними критериями оценки диагностируемого свойства.

Одним из важных отличий психометрических тестов является то, что они стандартизированы , а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах.

Стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых.

При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность.

В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели , удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения.

Созданием стандартизованного теста и его публикацией обычно завершается работа психолога , однако следует помнить и о том, что с течением времени необходим пересмотр (ревизия) теста.

При создании теста можно пользоваться факторным анализом для сжатия информации или, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. чтобы найти несколько фундаментальных факторов, которые объясняли бы большую часть дисперсии в группе оценок по различным тестам или другим психометрическим измерениям.

Существует несколько процедур факторного анализа, но все они предполагают две стадии: 1) факторизацию матрицы корреляций, с тем чтобы получилась первоначальная факторная матрица; 2) вращение факторной матрицы, с тем чтобы обнаружить наиболее простую конфигурацию факторных нагрузок.

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ - test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста) :

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,5. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным применяется исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. При этом испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность (англ. - internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно "узкую" переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

  1. Метод расщепления или метод автономных частей
  2. Метод эквивалентных бланков

Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом , сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Вычисление Кронбаха

Кронбаха определяется как

где - число элементов в шкале, - дисперсия общего тестового балла, и - дисперсия элемента .

Альтернативный способ вычисления выглядит следующим способом:

где N - число элементов в шкале, - средняя дисперсия для выборки, - среднее значение для всех ковариаций между компонентами выборки.

В настоящее время Кронбаха считают при помощи SPSS , STATISTICA и других современных статистических пакетов, возможно и при помощи Microsoft Excel

Значение Кронбаха

Альфа Кронбаха в целом будет возрастать по мере увеличения взаимных корреляций переменных, и, поэтому, считается маркёром внутренней согласованности оценки достоверности результатов тестов. Так как максимальное взаимные корреляции между переменными по всем пунктам присутствуют, если измеряется одно и то же, альфа Кронбаха косвенно указывает на степень того, насколько все пункты измеряют одно и то же. Таким образом, альфа наиболее целесообразно использовать, когда все пункты направлены на измерение одного и того же явления, свойства, феномена. Однако, следует заметить, что высокое значение коэффициента указывает на наличие общего основания у набора вопросов, но не говорит о том, что за ними стоит один единственный фактор - одномерность шкалы следует подтверждать дополнительными методами Когда измеряют гетерогенную структуру, альфа Кронбаха часто будет низким. Таким образом, альфа не подходит для оценки надежности умышленно гетерогенной инструментов (например, для оригинала MMPI , в данном случае имеет смысл проводить отдельные измерения для каждой шкалы).

Считается, что профессионально разработанные тесты должны иметь внутреннюю согласованность на уровне не менее 0.90.

Коэффициент альфа может применяться и для решения другого типа задач. Так, с его помощью можно измерять степень согласованности экспертов, оценивающих тот или иной объект, стабильность данных при многократных измерениях и т.д

Теоретическое основание Кронбаха

Альфа Кронбаха может быть рассмотрено как расширение Кьюдера-Ричардсона-20 , которая является эквивалентом для работы с дихотомиями или переменными, принимающих только два значения (например, ответы истинно/ложно).

Α Кронбаха теоретически связана с формулой прогнозирования Спирмана-Брауна . И обе эти формулы вытекают из классической теорией теста , заключающийся в том, что достоверность результатов тестирования может быть выражена как отношение дисперсий истинной и общей оценок (ошибки и истинной оценки).

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. "Справочное руководство по конструированию тестов", Киев, 1994.

Ссылки

  • Надёжность тестов в книге В.С.Кима "Тестирование учебных достижений"

Wikimedia Foundation . 2010 .

Надежность теста один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Надежность теста

Надежность теста - фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании. Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н. т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны. Таким образом, н.т., выражая степень неточности, возможность ошибки, возникающей неизбежно при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целеустремленного применения теста. Надежность лучших тестов составляет 0,8 - 0,9.

Надежность эксперимента

устойчивость результатов эксперимента при его проведении второй, третий, четвертый и т.д. раз.

Добиться объективности психологического теста можно при выполнении следующих условий:

1) единообразие процедуры проведения теста для полу­чения сравнимых с нормой (см. ниже) результатов;

2) единообразие оценки выполнения теста;

3) определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тес­тирования (см. здесь "тре­тий этап стандартизации").

Эти три условия называют этапами стандартизации психологического теста.

Этапы стандартизации

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1) условия тестирования (помещение, освещение и др. внешние факто­ры). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раз­дра­жителей, таких как посторонние звуки, голоса и т.д.

3) Наличие стандартного стимульного материала. Например, дос­то­верность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные - с определенной цветовой гаммой и цветовыми оттенками.

4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5) Стандартный бланк для выполнения данного теста. Использование стандартного блан­ка облегчает процедуру обработки.

6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испы­ту­емого (усталость, пере­напряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка "правильного ответа" и др.

8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тес­тирования, преодолел чувство неизвестности и выработал опре­деленное отношение к тестовой ситуации. Например, если респон­дент уже выполнял тест Равена, то, скорее всего, не стоит предла­гать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в соз­дании единообразной оценки выполнения теста: стандартной интер­претации полученных результатов и предварительной стандартной обра­бот­ки. Этот этап предполагает также сравнение полученных пока­зателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.

Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:

Школьные нормы - разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.

Профессиональные нормы устанавливаются на основе тестов для разных про­фес­сиональных групп (например, механиков разного про­филя, машинисток и др.).

Локальные нормы устанавливаются и применяются для узких кате­го­рий людей, отличающихся наличием общего- признака - возраста, пола, географического рай­о­на, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.

Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходи­мость таких норм определяется конкретной куль­турой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.

Надежность теста - Относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых; независимость методики от действия случайных факторов.

Показатели надежности методик зависят от многих причин. Основные из них:

Нестабильность самого диагностируемого свойства

Небрежно составленная инструкция

Задания по своему характеру слишком разнородны

Нечетко сформулированы указания по предъявлению методики испытуемым

Иные несовершенства психодиагностической методики

Меняющаяся ситуация обследования (разное время дня, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.п.)

Различия в манере поведения психодиагноста

Колебания в функциональном состоянии испытуемого

Личностные изменения самих испытуемых (особенно характерно для школьных возрастов, когда даже за месяц у испытуемых может произойти значительный рывок в развитии)

Изменение отношения к психодиагностике со стороны испытуемых

Элементы субъективности в способах оценки и интерпретации результатов (человеческий фактор; особенно актуально для проективных методик)

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Следует учесть, что в реальной жизни методика используется в разных условиях, поэтому для повышения надежности ее необходимо очень тщательно и подробно излагать условия проведения в руководстве.

Повторное применение надежной методики должно давать сходные оценки. Как пишет известный теоретик психодиагностики А. Анастази (1982), вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу 80. Должны совпадать как сами результаты, так и порядковое место (ранг) испытуемого в группе. При повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными в пределах одной группы.

Надежность лучше определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Для вычисления показателей надежности обычно применяют коэффициенты корреляции. Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице.

К.М. Гуревич предлагает определять надежность по трем показателям:

Показатель, характеризующий измерительный инструмент (коэффициентом надежности)

Показатель, характеризующий стабильность измеряемого свойства (коэффициентом стабильности)

Показатель оценки влияния личности экспериментатора (коэффициентом константности)

Следует учитывать, что в погоне за надежностью методики можно потерять ее валидность. Под влиянием разных обстоятельств психические свойства человека могут довольно резко меняться. Психодиагностика практически не имеет дела с неизменяемыми на протяжении жизни качествами (т.е. врожденными). Для методик, диагностирующих психическое состояние, само понятие "надежность" практически неуместно.

Литература

Гуревич К.М. Психологическая диагностика. Учебное пособие. М., 1997.