Книги по психологии

3.6. Оценки валидности психологических тестов
П - Психодиагностика

Основным Критерием качества метода Является его валидность. Валидность зависит от точности, так как неточный метод не может быть валидным. Однако и наиболее точный метод без знания его валидности не имеет практически никакой цены. В исследовательской работе он может иметь определенное место, если выявляет явные индивидуаль­ные различия, но для практических целей необходимо знать, какое психологическое значение имеют эти различия. Каждый точный метод имеет определенную валидность, иначе говоря, его результаты выра­жают определенную психическую характеристику, его результаты со­здают образ исследуемого явления. Большинство методов является ва­лидными по отношению к нескольким психическим характеристикам.

В переводе термин «валидность» означает обоснованность, досто­верность. С методологической точки зрения валидность является ос­новной гносеологической проблемой психодиагностики. Она основа­на на предположении о существовании психических характеристик, которые внешне проявляются определенными индикаторами. Речь идет об особом случае отношения между «сущностью и явлением». Мы ис­ходим из вероятностного понимания этого отношения. Отношение меж­ду психической характеристикой и ее индикаторами является более однозначным в том смысле, что определенный индикатор у разных ис­пытуемых может свидетельствовать о разных психических характери­стиках, но множество возможностей является конечным и познаваемым.

Вопрос о валидности тестовых методик был фактически поставлен известным русским психологом Г. И. Челпаповым (подробно анализиро­вавшим еще на заре тестологии методики Бине - Симона), А. П. Печае-


70_________ Часть I. Психодиагностика Теоретико-Методологические Аспекты

Вым, Г. И. Россолимо. Так, характеризуя тест Бине—Симона, Г. И. Чел-панов Справедливо укалывал: «При помощи этого метода можно только определить, соответствует ли умственное развитие данного ребенка его возрасту или нет. Определить его одаренность нет никакой возможно­сти» [2941.

Весьма интенсивно и плодотворно проблема валидизации психоло­гических тестов разрабатывалась в период становления советской пси­хологии [42; 43; 72; 73; 96; 138; 147; 294].

Впервые в советской литературе на источник данной проблемы ука­зал М. Г. Геллерштейн. В той мере, писал он, в какой тест оценивает поведение человека, он, безусловно, является методом объективным. «В него вкрадывается элемент субъективности лишь постольку, по­скольку многообразные формы человеческого поведения, регистрируе­мые нами в тестовых испытаниях, истолковываются под углом зрения тех психических процессов, которые за ними скрываются... Субъектив­ность будет тем большей, чем меньше нам понятна связь, существующая между определенными психическими процессами и их реализацией, т. е. их выявлением в форме того или другого акта или реакции» [72].

К сожалению, справедливая критика мнимого, невалидного изме­рения врожденной умственной одаренности, развернувшаяся с лета 1937 г., имела своим побочным результатом прекращение на длительный период любой конструктивной работы в этой области. Однако с начала 60-х гг. в ряде публикаций ведущих советских психологов [42; 43; 75] вновь была подчеркнута актуальность вопросов, связанных с валиди-зацией психологических тестов.

«Возможна ли в психологии разработка таких тестовых проб, ко­торые служили бы совершенно однозначным и достоверным призна­ком реальных психологических особенностей?» — задаются вопросом И. И. Иванова И В. Г. Асеев. Ответ их звучит весьма осторожно: «возмож­ности разработки таких однозначных тестовых проб ограниченны» [119].

В настоящее время отечественная психология уже имеет в своем активе ряд теоретических разработок [42; 43; 184; 277], представля­ющих интерес для данной проблемы. Однако специальных, система­тических исследований, органически сочетающих теоретический ана­лиз и эксперимент, в этой области еще не проводилось.

Создание эффективных методов валидизации психологических те­стов требует прежде всего научно обоснованной, четко оформленной классификации существующих типов и видов валидности. На Западе, где проблема валидности была осознана более или менее глубоко лишь в 50-х гг. (в связи с наметившимся к тому времени глобальным кризи-


Раздел 3. Теоретические Проблемы Диагностических Методов

71


Сом тестологии), описанию различных видов валидности посвящены тем не менее десятки пространных публикаций [см. 341; 342; 343; 382]. Однако высказываемые мнения касаются по преимуществу лишь от­дельных, разрозненных аспектов проблемы. Выделенные по различным признакам типы и виды валидности должным образом не специфициро­ваны и не соотнесены друг с другом. Какой-либо единой классификаци­онной системы пока нет, и ее создание даже не ставится в повестку дня. В связи с этим и в практической сфере, т. е. в деле валидизации конкрет­ных психологических тестов, существенного прогресса пока не до­стигнуто — почти все тесты, используемые в настоящее время в научных или практических целях, валидизированы лишь на уровне определения их ценности для конкретных практических целей или путем определе­ния степени их корреляции с другими тестами.

С формальной точки зрения валидность бывает Подлинная, Выра­жающая отношение между результатами метода и тем, что с помощью метода изучалось, и Ложная, В которой зафиксирована видимость ценности метода. Подлинная валидность в зависимости от характе­ра критерия, с помощью которого она проверяется, разделяется на Эм­пирическую И Теоретическую, текущую И Прогностическую. Dj Ложная валидность Имеет также четыре варианта (Р. Кэттелл): Очевидную валидность, валидность, основанную на опыте, на убежде­нии и на желании [336].

•ї 1. Очевидная валидность Исходит из того, Что Данный метод на пер­вый взгляд якобы исследует. Если, например, содержание вопросов на­правлено на неуверенность в себе, то исследуется неуверенность, а если на знания по истории — то исследуется духовная культура в области истории и т. д. Очевидная валидность соответствует подлинной валид­ности по содержанию только в случае так называемых дидактических тестов или тестов знаний; их содержательный анализ является столь яв­ным, что нет необходимости изучать его. При всех остальных методах, включая опросники, мы обязательно должны исследовать валидность, хотя и во многих случаях кажется понятным, о чем идет речь.

2. Валидность, исходящая из опыта, Основывается на уверенности в том, что метод позволяет «понять испытуемого»; использование ме­тода доставляет личное удовлетворение.

3. Валидность, опирающаяся на убеждение, Исходит из необоснован­ного убеждения, что данный метод является хорошим, потому что, в ча­стности, хорошей является теория, на которой он построен. Часто такое убеждение усиливается по мере овладения методом, без иссле­дования его реальной валидности.


72_________ Часть I. Психодиагностика - Теоретико-Методологические Аспекты

4. Валидность, основанная на желании, Предполагает участие преду­беждений исследователя относительно возможностей метода.

Валидность всех психодиагностических методов, кроме дидакти­ческих, требует проверки психометрическими методами. Психометри­ка разработала много так называемых процессов валидизации, среди которых наиболее часто используются различные коэффициенты кор­реляции для подсчета отношения между результатами метода и значе­нием критерия. Тип коэффициента зависит от типа математической шкалы, на которой представлены результаты и значения критерия.

Коэффициент валидности может быть выражен и с помощью T-Тес­та, коэффициента энтропии, теста С2 Или с помощью прогностических таблиц и иных мер отношений.

Теоретическая валидность определяется на основе логического доказательства и эмпирического подтверждения последствий, выте­кающих из теории, взятой за основу метода, и ее результатов. Преиму­ществом теоретической валидизации является применение факторно­го или дискриминационного анализа, но в матрицу анализируемых переменных должны входить и методы с известной валидностью, что­бы с их помощью можно было адекватно интерпретировать факторы или синдромы. Большинство специалистов характеризуют валидность как вероятность соответствия между результатами теста и тем, что мы с помощью тестахотим узнать. Значит, валидность говорит о том, в ка­кой степени (или как) результаты проверенного уже теста соответ­ствуют измеряемой или оцениваемой характеристики личности, на­сколько тест адекватен по отношению к изучаемой проблеме и в какой степени полученные результаты являются образом исследуемого зна­ка. Это значит, что валидность — это данные об информативной цен­ности теста как средства познания человека.

Валидность, таким образом, выражает, в какой степени мы с помо­щью данного метода исследуем то, что хотим исследовать, и отвечает на вопрос, измеряем ли мы то, что думаем измерять.

С этой точки зрения можно вообще говорить о следующих типах валидности.

1. По содержанию — Выражает соответствие между тестом и иссле­дуемой характеристикой. Включение таких заданий исходит из зна­ний автора, отзывов специалистов и т. д. о предполагаемых явлениях, например включение в опросник вопросов, о которых предполагаем, что они направлены на проявление интровертированного поведения. Здесь пригодность методики определяется на основании репрезента­тивного сходства между содержанием вопросов (заданий) и компонен-


Раздел 3. Теоретические Проблемы Диагностических Методов

73


Тами изучаемой характеристики личности; способ ее определения — логико-семантический.

2. Текущая валидностъ — Выражает соответствие между результата­ми и параллельно примененным критерием. Часто используется ме­тод известных групп и сравниваются результаты обеих групп. Важна точная идентификация известных групп.

3. Прогностическая валидностъ — Выражает соответствие между ре­зультатами теста и критерием спустя определенное время. Например, при исследовании доминантности мы следим за поведением и сопоставляем его с результатами тестирования. Подходящим критерием является, на­пример, успеваемость в школе, показатели результативности труда и т. д. * 4. Конструктиая валидностъ — выражает соответствие между тестом и изучаемым знаком. В этих целях часто результаты тестирования срав­ниваются с надежными тестами, измеряющими данный знак личности. 5Г« На основании результатов тестирования мы предсказываем степень выраженности изучаемой характеристики, поэтому тест можно и на­звать «предиктором», и считать его независимой неременной в иссле­довании.

Однако в психологии мы почти никогда не узнаем степень выражен­ности и характер исследуемой характеристики, так как судим о ней по­средством эмпирически очевидных показателей, о которых мы на основе теоретических либо практических знаний знаем, что они являются ре­левантными отображениями знака. Эти показатели — если служат для проверки валидности теста — обозначаются термином «критерий». (Ес­тественно, и тест-является показателем изучаемой характеристики, од­нако его индикаторная функция до проверки еще неизвестна и неявна.) 1 В большинстве процедур по валидизации имеет место внешний кри­терий. Обычно им является знакомый и очевидный индикатор психи­ческой характеристики, для определения которой мы и создаем метод. ■ Критерием чаще всего бывают проявления изучаемой характеристи­ки в повседневной жизни. Однако это должны быть такие данные, кото­рые сами по себе не могут заместить метод, иначе было бы бессмыслен­ным финансировать создание метода. Достаточно было бы в качестве метода использовать сам критерий.

В патопсихологии критерием является диагноз врача.

В промышленности — количество аварий, количество поощрений или изобретений, оценка со стороны начальства или стратометрический выбор со стороны подчиненных или сотрудников по отношению к из­учаемому аспекту исполнения или поведения.

В школе критерием является оценка успеваемости и поведения.


74_________ Часть I. Психодиагностика Теоретико-Методологические Аспекты

Нахождение подходящего и легкодоступного критерия принадлежит к важнейшим и сложнейшим задачам валидизации. Многие хорошие методы были изъяты лини» потому, что не удалось найти адекватного критерия для их проверки. Сомнительные данные по валидизации можно найти при анализе некоторых опросников, и не потому, что по­следние являются невалидными, а потому, что трудно найти подходя­щий критерий, соответствующий тому, что этот опросник выявляет. Опросники выявляют поле проявления изучаемой характеристики, в то время как шкалы оценок, с помощью которых чаше всего осуще­ствляется валидизация опросников, выявляют интенсивность изучае­мой характеристики. Но тогда коэффициент валидности оказывается ниже, чем он есть на самом деле.

Так же дело обстоит с валидизацией теста Роршаха — она бывает менее благоприятной, чем само качество метода. Оказывается, что ин-троверсия и экстраверсия, определенная с помощью теста Роршаха, отличается от интроверсии и экстраверсии, выявленной с помощью опросников и других часто используемых методов, исходящих из иных теоретических предпосылок.

Позитивисты-эмпирики сказали бы, что критерием является зави­симая переменная, с помощью которой мы приблизительно оцениваем, предсказываем па основании результатов теста (диагностических по­казателей), или переменная, которая служит мерой валидности теста.

В отличие от этого несколько крайнего утверждения мы исходим из предположения, что по диагностическим данным (ДД) мы судим об изучаемой характеристике личности (ХЛ) посредством психометри­чески или теоретически обоснованного отношения между результата­ми теста и величиной критерия (К): ДД — К — ХЛ.

Таким образом, можно сказать, что критерий — это очевидный по­казатель тех характеристик личности, которые тест должен измерять, а именно — показатель, определяемый независимо от предъявления теста. Было бы ненаучным, если бы критерий исследовался и выра­жался — сознательно или неосознанно — в зависимости от знания тес­товых результатов отдельных испытуемых.

Считаем необходимым здесь подчеркнуть, не вникая в подробности, что отношение «тест — критерий — характеристика личности» обычно представляет сложную структуру. Выбранный критерий может реле­вантно выражать лишь определенный компонент этой структуры, при­чем другой критерий выражает уже следующий аспект. На этой основе — кроме иных факторов — может возникнуть разногласие между различ­ными авторами при определении валидности (слепая валидизация).


Раздел 3. Теоретические Проблемы Диагностических Методов

75


Мы уже отмечали, что критерий должен быть очевидным, объек­тивно надежно и легко определимым и по возможности репрезента­тивным показателем изучаемой характеристики. Критерием может служить и ранее проверенный практический тест или общепринятая хорошая теория.

Критерием может служить и возраст — при условии, что с возрастом регулярно повышаются или снижаются показатели изучаемого явле­ния; иными общеопределенными критериями являются: пол, диагноз врача, отметка в школе, далее, например, разделение испытуемых на «имеющих» и «не имеющих» определенную характеристику, распреде­ление испытуемых по степени выраженности (от максимума до миниму­ма) изучаемой характеристики, применение техники «угадай, кто» и т. и.

Критерии можем разделить в зависимости от того, касаются ли они преимущественно достижений деятельности или постоянных харак­теристик и объективных обстоятельств.

Группу деятелъностных критериев Представляет, например, «про­изводительность», выраженная в количестве продуктов, далее каче­ство результата труда, заработок, время, необходимое на овладение деятельностью, и т. д.

К постоянным и объективно данным критериям Можно отнести: воз­раст, пол, количество пропусков на работе, время пребывания на од­ной работе (на предприятии), текучесть кадров, несчастные случаи, повторение курса обучения, излечение и т. п.

Результаты критерия редко бывают представлены в шкальных еди­ницах (т. е. в интервалах или в равных единицах измерения в системе измерения), чаще всего они представлены в единицах квантиля: это порядковые степени (Rating), Порядковое место (Rankling) Или только качественные (номинальные) категории/типы.

Во многих случаях поэтому целесообразно дихотомизировать зна­чение критерия или разделить его на соответствующее количество степеней. Однако дихотомизацию нельзя механически проводить по медиане. Ведь мы не знаем, каким на самом деле является распределе­ние значений критерия в исследуемой выборке. Скажем, мы хотели бы с помощью какого-нибудь теста определять индивидов с безоши­бочным и точным наблюдением. Если мы в качестве критерия возьмем количество пропущенных ошибок в тексте, тогда у половины испыту­емых окажется в тесте 0-4 ошибки, а у второй половины 5 и больше ошибок. Но нам нужна группа, которая работает безошибочно (а это только 20 % Испытуемых). Высоковероятно, что психические явления не бывают, как правило, распределены по кривой нормального распре-


76___________ Часть I. Психодиагностика Теоретико-Методологические Аспекты

Деления Гаусса. Значит, целесообразно, например, в категорию «имеет характеристику» включить 80 % испытуемых со значением критерия от максимума по уровень, соответствующий 21 %, а в категорию «не имеет характеристики» включить оставшиеся 20 % лиц, и т. п.

Валидность Выражает Практическую Полезность Теста, Его Диагности­ческую И Прогностическую Силу И Возможность Его Использования В Оп­ределенных Целях.

Естественно, в процессе систематического изучения отношений между результатами тестирования и различными критериями мы убеждаемся, что адекватность теста зависит от исследовательских це­лей. Тест имеет столько валидностей, сколько имеется критериев. Оп­ределенный тест интеллекта является, например, отличным инстру­ментом для определения вербальной находчивости, но он мало годится для определения способности мысленного сопоставления.

Почти каждый тест предоставляет нам несколько различных ди­агностических показателей (например, диагностическими показате­лями в тесте зеркального рисования являются: время, нажим, количе­ство срывов, скорость обучения и т. п.). Поэтому требуется определить валидность диагностических показателей по отдельности или опреде­лить общую валидность всего теста в целом.

Валидизация Теста Это Поиск Ответа На Вопрос, Измеряет Ли Данная методика То, Что, По Замыслу Автора, Она Должна Измерять, И Насколько точно Она Это Делает.

Вообще это изучение всего того, что данная методика выявляет: релевантности, точности, практической полезности, диагностиче­ской и прогностической силы и адекватности теста для поставлен­ных целей.

Количественное или качественное выражение адекватности изме­рения посредством теста, т. е. определение исследуемой характери­стики личности, называется индексом валидности.

Когда Мы Имеем В Виду Пригодность Теста Для Определенной Цели, Мы говорим О Его Адекватности; Когда Мы Хотим Сказать, Что Результаты Тес­та Являются Точным И Метким Изображением Меры Или Своеобразия исследуемой Характеристики, Мы Тем Самым Определяем Их Действи­тельность. Однако На Практике До Сих Пор Не Различаются Адекватность теста Как Средства И Действительность Его Результатов: Одно И Другое коротко Мы Называем Валидностью.


Раздел 3. Теоретические проблемы диагностических методов

77


Когда мы проверяем действительность теста, чаще всего нас ин­тересует, существует ли вообще предполагаемое отношение или по крайней мере какое-нибудь отношение теста к любому критерию (речь идет о какой-то «разведочной» валидности) и насколько это от­ношение является тесным.

Хотя мы и говорим об отношении, это не значит, что валидность долж­ны изучать лишь с помощью корреляций. Отношение мы можем оп­ределять также с помощью уравнения регрессии, ^-критерия разли­чий между результатами тестирования в группе наилучших по критерию и средним числом результатов тестирования оставшихся испытуемых. Существует ряд других методов, включая непараметрические тесты.

Какое количество испытуемых необходимо иметь для подсчета ва­лидности?

В общем можно сказать, что это зависит от применяемой модели валидизации, от эффективности использованной статистической об­работки и от принятого уровня значимости. Для обычных целей требу­ется не менее 50 испытуемых, но оптимальное количество — более 200. Это прежде всего относится к корреляционной модели валидизации.

Часто также возникает вопрос: Какими должен быть уровень валид­ности, чтобы она была приемлемой?

Если исходить из простого соображения, что при нулевой валидности геста мы случайно выберем 50 % Испытуемых правильно, тогда любая валидность выше нуля повышает процент правильного выбора с по­мощью теста. Но минимальный уровень приемлемой валидности теста в целях выбора зависит прежде всего от так называемого отношения выбора, т. е. отношения количества выбранных к общему количеству всех кандидатов. Чем это отношение благоприятнее (т. е. чем больше канди­датов мы имеем и чем меньше из них мы выбираем), тем более низкая валидность теста является для нас достаточной. Принято считать, что приемлемой считается любая статистически значимая валидность. Низкой считается валидность 0,20-0,30, средней — валидность0,30-0,50, а высокой — валидность больше 0,60. Но это касается корреляционной модели.

Почему исследования по валидизации заканчиваются неудачей?

Одной из причин может быть то, что предиктором является опрос­ник, а критерием — шкала оценок. То есть сопоставляются методы изучения двух разных уровней личности.

- Если мы с помощью соответствующей модели валидизации полу­чим неубедительный результат (слишком низкий индекс валидности), это еще не означает, что тест невалиден. Причин этому может быть


78_________ Часть I. Психодиагностика Теоретико-Методологические Аспекты

Много. Например, тест валиден в совсем иной области, чем та, которую мы изучаем. Мы также могли допустить ошибку в подсчетах. Доводом может быть и то, что мы применяли линейные корреляции, в то время как отношение между тестом и критерием является нелинейным. По­этому всегда полезно отношение между тестом и критерием изобра­зить графически (на точечной диаграмме).

В последнее время указывается и на другой важный довод, который может способствовать в будущем пересмотру всех до сих пор суще­ствующих работ по валидизации. Речь идет о действии так называе­мых переменных-модераторов. При прогностической валидизации теста способностей но отношению к успеху в будущем было обнару­жено, что наивысшую валидность имели тесты у стабильных экстра­вертов, вто время как у лабильных экстравертов корреляция была около нуля. К переменным-модераторам вероятно принадлежит и тео­ретически предполагаемая переменная, называемая Предсказуемостью. Большее количество испытуемых с низкой предсказуемостью в группе, на которой осуществляется валидизапия, может значительно занизить индекс валидности. Предсказуемость вероятно представляет комплекс характеристик, которые обесценивают результат тестирования или искажают критерий у разных испытуемых в разной степени. Валид­ность могут снижать и так называемые Супрессоры, Т. е. переменные, минимально коррелирующие с критерием, но зато имеющие общую дисперсию с невалидной частью проверяемого теста.