Надежность тестовых методик. Надежность как одна из основных характеристик теста. Виды надежности. Теоретическое основание Кронбаха
План лекции
1. Надежность и ее виды.
2. Процедуры определения ретестововй надежности.
3. Определение одномоментной надежности теста
Тема 13. Надежность теста. Ее виды.
Процедуры определения надежности теста
(семинарско-практическое - 8 часов)
Вопросы для обсуждения:
1. Понятие надежности. Виды надежности.
2. Ретестовая надежность тестовой методики. Процедуры ее определения: преимущества и недостатки.
3. Одномоментная надежность теста. Варианты определения одномоментной надежности: метод параллельных форм, метод расщепления, метод анализа согласованности ответов по всем пунктам методики (метод Кьюдера-Ричардсона). Преимущества и недостатки каждого из них.
3. Надежность отдельных пунктов теста. Характеристика требований, обеспечивающих надежность отдельных пунктов теста: объективность, валид-ность, устойчивость, сила/трудность, дискриминативность. Процедуры определения надежности отдельных пунктов теста
Практические задания:
1) расчет ретестовой надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера;
2) расчет одномоментной надежности на материале результатов теста Дж. Равена и опросника Ч.Д. Спилбергера.
1. Надежность и ее виды.
В традиционной тестологии термин «надежность» означает относ тельное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место, занимаемое испытуемым в группе.
Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений. Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называются следующие:
1) нестабильность диагностируемого свойства;
2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания по предъявлению методики испытуемым и т.д.)
меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.д.);
3) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);
4) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утомление и т.д.);
5) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т.п.).
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т.д. При такой стандартизации процедуры исследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.
В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах ив какой мере они могут быть приписаны случайным ошибкам. В узком методическом смысле под надежностью понимают степень согласованности результатов теста при повторном его использовании.
На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой.
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.
Так как все виды надежности отражают степень согласованное двух независимо полученных рядов показателей, то математике статистический прием, с помощью которого устанавливается надежность методики, - это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот. Важнейшим средством повышения надежности ПД методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановка и условия работы, характер инструкции, временные ограничения, способы и особенности контакта с испытуемым и пр.) существенно повышается надежность теста.
Надежность тесно связана с валидностью. Надежность – это устойчивость процедуры относительно объектов исследования. Валидность – устойчивость относительно измеряемых свойств объекта (предмета измерения). Устойчивость теста относительно объектов исследования является необходимым, но не достаточным условием его устойчивости относительно измеряемых свойств объектов. То есть, надежность является необходимым, но не достаточным условием валидности. Валидность может качественно и количественно превышать надежность.
В данном пособии при описании видов надежности основной упор делается на работы К.М. Гуревича (1969, 1975, 1977, 1979), который, проведя тщательный анализ зарубежной литературы по это£ проблеме, предложил толковать надежность как:
1) надежность самого измерительного инструмента;
2) стабильность изучаемого признака;
3) константность, т.е. относительную независимость результатов от личности экспериментатора.
Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности; показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния личности экспериментатора - коэффициентом константности.
Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности.
1. Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.
Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.
Можно делить задания и другим путем, например сопоставить первую половину теста со второй, первую и третью четверть - со второй и четвертой и т.п. Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.
Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.
Но на начальном этапе разработки диагностической методики можно получить невысокие коэффициенты надежности, например, порядка 0,46-0,50. Это означает, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей специфичности ведут к снижению коэффициента корреляции. Такие задания необходимо специально проанализировать и либо переделать их, либо вообще изъять.
Чтобы легче было установить, за счет каких заданий снижаются коэффициенты корреляции, необходимо проанализировать таблицы с выписанными данными, подготовленными для корреляций. Следует отметить, что любые изменения в содержании методики - изъятие заданий, их перестановка, переформулировка вопросов или ответов требует заново высчитывать коэффициенты надежности.
При ознакомлении с коэффициентами надежности не следует забывать, что они зависят не только от правильного подбора заданий с точки зрения их взаимосогласованности, но и от социально-психологической однородности той выборки, на которой проверялась надежность измерительного инструмента.
2. Определение стабильности изучаемого признака. Определить надежность самой методики - это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Колебания признака не должны иметь непредсказуемого характера. Если не ясны причины резких колебаний, то такой признак не может быть использован в диагностических целях.
Для проверки стабильности диагностируемого признака, свойств используется прием, известный как тест - ретест. Он заключаете в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико Поэтому необходимо соблюдать требования единообразия процедуры проведения эксперимента.
При определении стабильности признака большое значение имеет промежуток времени между первым и повторным обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого, но не слишком, так как возможно, что испытуемые помнят свои ответы. В тестологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.
Если тест исследует свойство, которое в период тестирования находится в процессе интенсивного развития (например, умение проводить обобщения), то коэффициент стабильности может оказаться невысоким, но это не следует истолковывать как недостаток теста. Такой коэффициент стабильности должен интерпретироваться как показатель определенных изменений, развития исследуемого свойства. Совсем другое требование предъявляется к коэффициенту стабильности, если автор методики считает, что измеряемое свойство уже сформировано и должно быть достаточно устойчивым. Коэффициент стабильности в этом случае должен быть достаточно высоким (не ниже 0,80).
Таким образом, вопрос о стабильности измеряемого свойства решается не всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.
3. Определение константности, т.е. относительной независимости результатов от личности экспериментатора. Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится. . Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.
Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
2. Определение ретестовой надежности.
НАДЕЖНОСТЬ РЕТЕСТОВАЯ - характеристика надежности психодиагностической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надежность в этом случае вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежности (г () соответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкалприменяется коэффициент корреляции произведения моментов Пирсона. Для шкал порядка в качестве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.
При характеристике ретестовой надежности особое значение имеет временной интервал между первым и вторым обследованиями. С его увеличением показатели корреляции имеют тенденцию к снижению, существенно повышается вероятность воздействия посторонних факторов - могут наступить закономерные возрастные изменения измеряемых тестом свойств, произойти различные события, влияющие на состояние и особенности развития исследуемых качеств. По этой причине при определении ретестовой надежности стараются выбирать непродолжительные временные интервалы (до нескольких месяцев), а при обследовании детей младшего возраста эти интервалы должны быть еще меньше, поскольку возрастные изменения и развитие в этом случае происходят еще быстрее.
Несмотря на указанную тенденцию, при получении характеристик теста проводятся повторные испытания и с длительным временном промежутком. Определение ретестовой надежности ограничивается анализом краткосрочных случайных изменений, характеризующих тест как измерительную процедуру, а не его отношение к исследуемой области поведения.
Наряду с очевидной простотой ретестовая надежность как метод определения надежности обладает существенными недостатками. Так, при повторном применении одних и тех же заданий, особенно при относительно непродолжительном временном интервале между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуальных результатов, хотя и не одинаково выраженному у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной выборке и, соответственно, ухудшению коэффициента надежности. Еще более заметное воздействие на результаты анализа надежности оказывает запоминание испытуемыми отдельных решений, воспроизведение в повторном обследовании предыдущей картины правильных и неправильных решений. В этом случае результаты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.
Один из путей устранения влияния тренировки на результаты оценки ретестовой надежности - формирование устойчивого навыка в работе с соответствующей методикой перед проведением тест-ретеста. Однако количество повторений теста при этом неизбежно возрастает, что приводит к увеличению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, содержащих большое количество элементов тестового материала.
Для других методик, очевидно, единственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоречие с определением надежности как характеристики теста.
Для большинства тестов общих способностей характерно улучшение показателей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выполнения. Другим фактором увеличения расчетных показателей Н. р. является относительное замедление с возрастом темпа психического развития в области тех характеристик, которые могут стать объектом измерения или влиять на результат теста. Благодаря этому, спустя время, составляющее интервал ретеста, случайные искусственно завышает показатели Н. р. Эта закономерность требует отдельных измерений Н. р. в разных возрастных контингентах испытуемых, что особенно существенно для методик, предназначенных для обследования в широком возрастном диапазоне.Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускающих многократное повторное обследование. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других методик, отличающихся большим количеством пунктов.
3. Определение одномоментной надежности.
Одномоментная надежность теста. Понятие сопоставимых форм методики. Варианты определения одномоментной надежности:
Метод параллельных форм.
Одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем - с применением аналогичных дополнительных наборов. Коэффициент надежности по типу параллельных форм может быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них предлагается форма А теста, а другой - форма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.
Такая процедура обследования лишена значительной части недостатков способа определения надежности ретестовой. Так как в параллельной форме используется другой по содержанию материал, возможность тренировки и запоминания отдельных решений уменьшается. Важнейшим преимуществом данного метода является сокращение временного интервала перед повторным обследованием. Основным показателем надежности параллельных форм является коэффициент корреляции между результатами первичного и повторного обследований, который позволяет оценить как временную стабильность теста (собственно надежность), так и степень соответствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.
Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только отвечать одним и тем же требованиям, измеряя идентичные показатели и давая сходные результаты, но вместе с тем быть относительно независимыми друг от друга. На практике эта задача осуществима далеко не для всех тестовых. Другим недостатком характеристики надежности по типу Н. п. ф. является возможность усвоения испытуемым принципа решения, общего для основной и параллельной форм. Таким образом, в случае оценки Н. п. ф. влияние тренировки и навыка, приобретаемого при повторном обследовании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.
Метод расщепления.
Наиболее простым и распространенным способом определения Н. ч. т. является метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту выполнение любого случайногонабора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отношению к тесту в целом).
Для оценки надежности методом расщепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласованность, Трудность заданий теста). Разделение объема заданий теста на сопоставимые части достигается:
Распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);
Распределением пунктов по принципу близости или равенства значений индексов трудности и дискриминативности.
При расщеплении тестов скорости применяется особая процедура группировки заданий. Определяется минимальное время (t^J решения целого теста, затем отсчитываются половина и четвертая часть этого времени. Все испытуемые работают половину минимального времени, после чего ставят отметку против задания, выполняемого в момент подачи сигнала, и продолжают работать еще четверть минимального времени. Коэффициент надежности в этом случае будет соответствовать степени корреляции между числом задач, решенных до первого сигнала (0,5t m ] n) и решенных за время между первым и вторым сигналами (0,25f mln).
Разделение заданий теста на равноценные половины является лишь частным случаем Н. ч. т. Вполне возможно расщепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутренней согласованности.
При разделении всего набора заданий теста на любое количество групп для правильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания теста должны быть в высокой степени однородны по содержанию и трудности (гомогенны). При гетерогенных задачах значения r t ниже истинных.
2а |
Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кьюдера-Ричардсона
где σ х - дисперсия первичных оценок теста, р - индекс трудности, выраженный в виде доли индекса трудности U деленного на 100, q = 1 - р, r pb - коэффициент дискриминации
При отсутствии коэффициента дискриминации применим вариант формулы Кьюдера-Ричардсона:
Где ∑σ² ‑ сумма дисперсий результатов отдельных заданий. В практике психологической диагностики считается, что тест надежен, если r>0,6.
Характеристика надежности по типу частей теста имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных форм, главным образом благодаря отсутствию необходимости в повторном обследовании. Таким образом, снимается влияние многих посторонних факторов, в частности тренировки, запоминания решений и т. д. Это обстоятельство определяет широкое распространение метода Кьюдера-Ричардсона по сравнению с другими типами надежности. К недостаткам метода относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комбинирования метода Кьюдера-Ричардсона с другими типами характеристики надежности психологической методики
4. Надежность отдельных пунктов теста.
Надежность отдельных пунктов теста. Характеристика требований, обеспечивающих надежность отдельных пунктов теста: объективность, валидность, устойчивость, сила/трудность, дискриминативность. Процедуры определения надежности отдельных пунктов теста.
Тест обычно считается надежным , если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.
надежность по внутренней согласованности: если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое.
Надежность ретестовая - предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных (не меньше 1 мес после 1, коэф кор больше 0,7).
Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами (СЛОЖНОСТЬ, 2 набора заданий).
Надежность частей теста определяется путем деления опросника на две части (обычно на четные и нечетные задания), после чего и рассчитывается корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.
наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные временные интервалы .
Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надежность - важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.
7.Валидность теста
Тест называется валидным , если он измеряет то, для измерения чего предназначен.
Очевидная валидность - описывает представление о тесте, сложившееся у испытуемого.
Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена
Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время.
Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.
Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин.
эмпирическая – рассчитывается величина статистической связи между результатами обследования одних и тех же испытуемых с помощью данной методики и известными методиками, измеряющими данное свойство.
Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест.
критериальная – количественная мера связи между полученными результатами тестирования и внешними критериями оценки диагностируемого свойства.
Одним из важных отличий психометрических тестов является то, что они стандартизированы , а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах.
Стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых.
При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность.
В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.
Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения.
Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели , удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения.
Созданием стандартизованного теста и его публикацией обычно завершается работа психолога , однако следует помнить и о том, что с течением времени необходим пересмотр (ревизия) теста.
При создании теста можно пользоваться факторным анализом для сжатия информации или, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. чтобы найти несколько фундаментальных факторов, которые объясняли бы большую часть дисперсии в группе оценок по различным тестам или другим психометрическим измерениям.
Существует несколько процедур факторного анализа, но все они предполагают две стадии: 1) факторизацию матрицы корреляций, с тем чтобы получилась первоначальная факторная матрица; 2) вращение факторной матрицы, с тем чтобы обнаружить наиболее простую конфигурацию факторных нагрузок.
Надёжность как устойчивость
Устойчивость результатов теста или ретестовая надежность (англ - test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста) :
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,5. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
В связи с выше сказанным применяется исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. При этом испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
Надёжность как внутренняя согласованность
Внутренняя согласованность (англ. - internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.
Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно "узкую" переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.
Для проверки внутренней согласованности применяются:
- Метод расщепления или метод автономных частей
- Метод эквивалентных бланков
Метод расщепления (Split-half reliability)
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом , сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
Вычисление Кронбаха
Кронбаха определяется как
где - число элементов в шкале, - дисперсия общего тестового балла, и - дисперсия элемента .
Альтернативный способ вычисления выглядит следующим способом:
где N - число элементов в шкале, - средняя дисперсия для выборки, - среднее значение для всех ковариаций между компонентами выборки.
В настоящее время Кронбаха считают при помощи SPSS , STATISTICA и других современных статистических пакетов, возможно и при помощи Microsoft Excel
Значение Кронбаха
Альфа Кронбаха в целом будет возрастать по мере увеличения взаимных корреляций переменных, и, поэтому, считается маркёром внутренней согласованности оценки достоверности результатов тестов. Так как максимальное взаимные корреляции между переменными по всем пунктам присутствуют, если измеряется одно и то же, альфа Кронбаха косвенно указывает на степень того, насколько все пункты измеряют одно и то же. Таким образом, альфа наиболее целесообразно использовать, когда все пункты направлены на измерение одного и того же явления, свойства, феномена. Однако, следует заметить, что высокое значение коэффициента указывает на наличие общего основания у набора вопросов, но не говорит о том, что за ними стоит один единственный фактор - одномерность шкалы следует подтверждать дополнительными методами Когда измеряют гетерогенную структуру, альфа Кронбаха часто будет низким. Таким образом, альфа не подходит для оценки надежности умышленно гетерогенной инструментов (например, для оригинала MMPI , в данном случае имеет смысл проводить отдельные измерения для каждой шкалы).
Считается, что профессионально разработанные тесты должны иметь внутреннюю согласованность на уровне не менее 0.90.
Коэффициент альфа может применяться и для решения другого типа задач. Так, с его помощью можно измерять степень согласованности экспертов, оценивающих тот или иной объект, стабильность данных при многократных измерениях и т.д
Теоретическое основание Кронбаха
Альфа Кронбаха может быть рассмотрено как расширение Кьюдера-Ричардсона-20 , которая является эквивалентом для работы с дихотомиями или переменными, принимающих только два значения (например, ответы истинно/ложно).
Α Кронбаха теоретически связана с формулой прогнозирования Спирмана-Брауна . И обе эти формулы вытекают из классической теорией теста , заключающийся в том, что достоверность результатов тестирования может быть выражена как отношение дисперсий истинной и общей оценок (ошибки и истинной оценки).
См. также
Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.
Надежность и валидность
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.
Литература
Пол Клайн. "Справочное руководство по конструированию тестов", Киев, 1994.
Ссылки
- Надёжность тестов в книге В.С.Кима "Тестирование учебных достижений"
Wikimedia Foundation . 2010 .
Надежность теста один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.
Надежность теста
Надежность теста - фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании. Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н. т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны. Таким образом, н.т., выражая степень неточности, возможность ошибки, возникающей неизбежно при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целеустремленного применения теста. Надежность лучших тестов составляет 0,8 - 0,9.
Надежность эксперимента
устойчивость результатов эксперимента при его проведении второй, третий, четвертый и т.д. раз.
Добиться объективности психологического теста можно при выполнении следующих условий:
1) единообразие процедуры проведения теста для получения сравнимых с нормой (см. ниже) результатов;
2) единообразие оценки выполнения теста;
3) определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. здесь "третий этап стандартизации").
Эти три условия называют этапами стандартизации психологического теста.
Этапы стандартизации
На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.
Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:
1) условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.
3) Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные - с определенной цветовой гаммой и цветовыми оттенками.
4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.
5) Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.
6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.
7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка "правильного ответа" и др.
8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.
Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).
Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.
Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:
Школьные нормы - разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.
Профессиональные нормы устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.).
Локальные нормы устанавливаются и применяются для узких категорий людей, отличающихся наличием общего- признака - возраста, пола, географического района, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.
Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.
Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.
Надежность теста
- Относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых; независимость методики от действия случайных факторов.
Показатели надежности методик зависят от многих причин. Основные из них:
Нестабильность самого диагностируемого свойства
Небрежно составленная инструкция
Задания по своему характеру слишком разнородны
Нечетко сформулированы указания по предъявлению методики испытуемым
Иные несовершенства психодиагностической методики
Меняющаяся ситуация обследования (разное время дня, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.п.)
Различия в манере поведения психодиагноста
Колебания в функциональном состоянии испытуемого
Личностные изменения самих испытуемых (особенно характерно для школьных возрастов, когда даже за месяц у испытуемых может произойти значительный рывок в развитии)
Изменение отношения к психодиагностике со стороны испытуемых
Элементы субъективности в способах оценки и интерпретации результатов (человеческий фактор; особенно актуально для проективных методик)
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Следует учесть, что в реальной жизни методика используется в разных условиях, поэтому для повышения надежности ее необходимо очень тщательно и подробно излагать условия проведения в руководстве.
Повторное применение надежной методики должно давать сходные оценки. Как пишет известный теоретик психодиагностики А. Анастази (1982), вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу 80. Должны совпадать как сами результаты, так и порядковое место (ранг) испытуемого в группе. При повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными в пределах одной группы.
Надежность лучше определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.
Для вычисления показателей надежности обычно применяют коэффициенты корреляции. Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице.
К.М. Гуревич предлагает определять надежность по трем показателям:
Показатель, характеризующий измерительный инструмент (коэффициентом надежности)
Показатель, характеризующий стабильность измеряемого свойства (коэффициентом стабильности)
Показатель оценки влияния личности экспериментатора (коэффициентом константности)
Следует учитывать, что в погоне за надежностью методики можно потерять ее валидность. Под влиянием разных обстоятельств психические свойства человека могут довольно резко меняться. Психодиагностика практически не имеет дела с неизменяемыми на протяжении жизни качествами (т.е. врожденными). Для методик, диагностирующих психическое состояние, само понятие "надежность" практически неуместно.