3.6. Оценки валидности психологических тестов

Основным Критерием качества метода Является его валидность. Валидность зависит от точности, так как неточный метод не может быть валидным. Однако и наиболее точный метод без знания его валидности не имеет практически никакой цены. В исследовательской работе он может иметь определенное место, если выявляет явные индивидуальные различия, но для практических целей необходимо знать, какое психологическое значение имеют эти различия. Каждый точный метод имеет определенную валидность, иначе говоря, его результаты выражают определенную психическую характеристику, его результаты создают образ исследуемого явления. Большинство методов является валидными по отношению к нескольким психическим характеристикам.

В переводе термин «валидность» означает обоснованность, достоверность. С методологической точки зрения валидность является основной гносеологической проблемой психодиагностики. Она основана на предположении о существовании психических характеристик, которые внешне проявляются определенными индикаторами. Речь идет об особом случае отношения между «сущностью и явлением». Мы исходим из вероятностного понимания этого отношения. Отношение между психической характеристикой и ее индикаторами является более однозначным в том смысле, что определенный индикатор у разных испытуемых может свидетельствовать о разных психических характеристиках, но множество возможностей является конечным и познаваемым.

Вопрос о валидности тестовых методик был фактически поставлен известным русским психологом Г. И. Челпаповым (подробно анализировавшим еще на заре тестологии методики Бине - Симона), А. П. Печае-


70_________ Часть I. Психодиагностика Теоретико-Методологические Аспекты

Вым, Г. И. Россолимо. Так, характеризуя тест Бине—Симона, Г. И. Чел-панов Справедливо укалывал: «При помощи этого метода можно только определить, соответствует ли умственное развитие данного ребенка его возрасту или нет. Определить его одаренность нет никакой возможности» [2941.

Весьма интенсивно и плодотворно проблема валидизации психологических тестов разрабатывалась в период становления советской психологии [42; 43; 72; 73; 96; 138; 147; 294].

Впервые в советской литературе на источник данной проблемы указал М. Г. Геллерштейн. В той мере, писал он, в какой тест оценивает поведение человека, он, безусловно, является методом объективным. «В него вкрадывается элемент субъективности лишь постольку, поскольку многообразные формы человеческого поведения, регистрируемые нами в тестовых испытаниях, истолковываются под углом зрения тех психических процессов, которые за ними скрываются... Субъективность будет тем большей, чем меньше нам понятна связь, существующая между определенными психическими процессами и их реализацией, т. е. их выявлением в форме того или другого акта или реакции» [72].

К сожалению, справедливая критика мнимого, невалидного измерения врожденной умственной одаренности, развернувшаяся с лета 1937 г., имела своим побочным результатом прекращение на длительный период любой конструктивной работы в этой области. Однако с начала 60-х гг. в ряде публикаций ведущих советских психологов [42; 43; 75] вновь была подчеркнута актуальность вопросов, связанных с валиди-зацией психологических тестов.

«Возможна ли в психологии разработка таких тестовых проб, которые служили бы совершенно однозначным и достоверным признаком реальных психологических особенностей?» — задаются вопросом И. И. Иванова И В. Г. Асеев. Ответ их звучит весьма осторожно: «возможности разработки таких однозначных тестовых проб ограниченны» [119].

В настоящее время отечественная психология уже имеет в своем активе ряд теоретических разработок [42; 43; 184; 277], представляющих интерес для данной проблемы. Однако специальных, систематических исследований, органически сочетающих теоретический анализ и эксперимент, в этой области еще не проводилось.

Создание эффективных методов валидизации психологических тестов требует прежде всего научно обоснованной, четко оформленной классификации существующих типов и видов валидности. На Западе, где проблема валидности была осознана более или менее глубоко лишь в 50-х гг. (в связи с наметившимся к тому времени глобальным кризи-


Раздел 3. Теоретические Проблемы Диагностических Методов

71


Сом тестологии), описанию различных видов валидности посвящены тем не менее десятки пространных публикаций [см. 341; 342; 343; 382]. Однако высказываемые мнения касаются по преимуществу лишь отдельных, разрозненных аспектов проблемы. Выделенные по различным признакам типы и виды валидности должным образом не специфицированы и не соотнесены друг с другом. Какой-либо единой классификационной системы пока нет, и ее создание даже не ставится в повестку дня. В связи с этим и в практической сфере, т. е. в деле валидизации конкретных психологических тестов, существенного прогресса пока не достигнуто — почти все тесты, используемые в настоящее время в научных или практических целях, валидизированы лишь на уровне определения их ценности для конкретных практических целей или путем определения степени их корреляции с другими тестами.

С формальной точки зрения валидность бывает Подлинная, Выражающая отношение между результатами метода и тем, что с помощью метода изучалось, и Ложная, В которой зафиксирована видимость ценности метода. Подлинная валидность в зависимости от характера критерия, с помощью которого она проверяется, разделяется на Эмпирическую И Теоретическую, текущую И Прогностическую. Dj Ложная валидность Имеет также четыре варианта (Р. Кэттелл): Очевидную валидность, валидность, основанную на опыте, на убеждении и на желании [336].

•ї 1. Очевидная валидность Исходит из того, Что Данный метод на первый взгляд якобы исследует. Если, например, содержание вопросов направлено на неуверенность в себе, то исследуется неуверенность, а если на знания по истории — то исследуется духовная культура в области истории и т. д. Очевидная валидность соответствует подлинной валидности по содержанию только в случае так называемых дидактических тестов или тестов знаний; их содержательный анализ является столь явным, что нет необходимости изучать его. При всех остальных методах, включая опросники, мы обязательно должны исследовать валидность, хотя и во многих случаях кажется понятным, о чем идет речь.

2. Валидность, исходящая из опыта, Основывается на уверенности в том, что метод позволяет «понять испытуемого»; использование метода доставляет личное удовлетворение.

3. Валидность, опирающаяся на убеждение, Исходит из необоснованного убеждения, что данный метод является хорошим, потому что, в частности, хорошей является теория, на которой он построен. Часто такое убеждение усиливается по мере овладения методом, без исследования его реальной валидности.


72_________ Часть I. Психодиагностика - Теоретико-Методологические Аспекты

4. Валидность, основанная на желании, Предполагает участие предубеждений исследователя относительно возможностей метода.

Валидность всех психодиагностических методов, кроме дидактических, требует проверки психометрическими методами. Психометрика разработала много так называемых процессов валидизации, среди которых наиболее часто используются различные коэффициенты корреляции для подсчета отношения между результатами метода и значением критерия. Тип коэффициента зависит от типа математической шкалы, на которой представлены результаты и значения критерия.

Коэффициент валидности может быть выражен и с помощью T-Теста, коэффициента энтропии, теста С2 Или с помощью прогностических таблиц и иных мер отношений.

Теоретическая валидность определяется на основе логического доказательства и эмпирического подтверждения последствий, вытекающих из теории, взятой за основу метода, и ее результатов. Преимуществом теоретической валидизации является применение факторного или дискриминационного анализа, но в матрицу анализируемых переменных должны входить и методы с известной валидностью, чтобы с их помощью можно было адекватно интерпретировать факторы или синдромы. Большинство специалистов характеризуют валидность как вероятность соответствия между результатами теста и тем, что мы с помощью тестахотим узнать. Значит, валидность говорит о том, в какой степени (или как) результаты проверенного уже теста соответствуют измеряемой или оцениваемой характеристики личности, насколько тест адекватен по отношению к изучаемой проблеме и в какой степени полученные результаты являются образом исследуемого знака. Это значит, что валидность — это данные об информативной ценности теста как средства познания человека.

Валидность, таким образом, выражает, в какой степени мы с помощью данного метода исследуем то, что хотим исследовать, и отвечает на вопрос, измеряем ли мы то, что думаем измерять.

С этой точки зрения можно вообще говорить о следующих типах валидности.

1. По содержанию — Выражает соответствие между тестом и исследуемой характеристикой. Включение таких заданий исходит из знаний автора, отзывов специалистов и т. д. о предполагаемых явлениях, например включение в опросник вопросов, о которых предполагаем, что они направлены на проявление интровертированного поведения. Здесь пригодность методики определяется на основании репрезентативного сходства между содержанием вопросов (заданий) и компонен-


Раздел 3. Теоретические Проблемы Диагностических Методов

73


Тами изучаемой характеристики личности; способ ее определения — логико-семантический.

2. Текущая валидностъ — Выражает соответствие между результатами и параллельно примененным критерием. Часто используется метод известных групп и сравниваются результаты обеих групп. Важна точная идентификация известных групп.

3. Прогностическая валидностъ — Выражает соответствие между результатами теста и критерием спустя определенное время. Например, при исследовании доминантности мы следим за поведением и сопоставляем его с результатами тестирования. Подходящим критерием является, например, успеваемость в школе, показатели результативности труда и т. д. * 4. Конструктиая валидностъ — выражает соответствие между тестом и изучаемым знаком. В этих целях часто результаты тестирования сравниваются с надежными тестами, измеряющими данный знак личности. 5Г« На основании результатов тестирования мы предсказываем степень выраженности изучаемой характеристики, поэтому тест можно и назвать «предиктором», и считать его независимой неременной в исследовании.

Однако в психологии мы почти никогда не узнаем степень выраженности и характер исследуемой характеристики, так как судим о ней посредством эмпирически очевидных показателей, о которых мы на основе теоретических либо практических знаний знаем, что они являются релевантными отображениями знака. Эти показатели — если служат для проверки валидности теста — обозначаются термином «критерий». (Естественно, и тест-является показателем изучаемой характеристики, однако его индикаторная функция до проверки еще неизвестна и неявна.) 1 В большинстве процедур по валидизации имеет место внешний критерий. Обычно им является знакомый и очевидный индикатор психической характеристики, для определения которой мы и создаем метод. ■ Критерием чаще всего бывают проявления изучаемой характеристики в повседневной жизни. Однако это должны быть такие данные, которые сами по себе не могут заместить метод, иначе было бы бессмысленным финансировать создание метода. Достаточно было бы в качестве метода использовать сам критерий.

В патопсихологии критерием является диагноз врача.

В промышленности — количество аварий, количество поощрений или изобретений, оценка со стороны начальства или стратометрический выбор со стороны подчиненных или сотрудников по отношению к изучаемому аспекту исполнения или поведения.

В школе критерием является оценка успеваемости и поведения.


74_________ Часть I. Психодиагностика Теоретико-Методологические Аспекты

Нахождение подходящего и легкодоступного критерия принадлежит к важнейшим и сложнейшим задачам валидизации. Многие хорошие методы были изъяты лини» потому, что не удалось найти адекватного критерия для их проверки. Сомнительные данные по валидизации можно найти при анализе некоторых опросников, и не потому, что последние являются невалидными, а потому, что трудно найти подходящий критерий, соответствующий тому, что этот опросник выявляет. Опросники выявляют поле проявления изучаемой характеристики, в то время как шкалы оценок, с помощью которых чаше всего осуществляется валидизация опросников, выявляют интенсивность изучаемой характеристики. Но тогда коэффициент валидности оказывается ниже, чем он есть на самом деле.

Так же дело обстоит с валидизацией теста Роршаха — она бывает менее благоприятной, чем само качество метода. Оказывается, что ин-троверсия и экстраверсия, определенная с помощью теста Роршаха, отличается от интроверсии и экстраверсии, выявленной с помощью опросников и других часто используемых методов, исходящих из иных теоретических предпосылок.

Позитивисты-эмпирики сказали бы, что критерием является зависимая переменная, с помощью которой мы приблизительно оцениваем, предсказываем па основании результатов теста (диагностических показателей), или переменная, которая служит мерой валидности теста.

В отличие от этого несколько крайнего утверждения мы исходим из предположения, что по диагностическим данным (ДД) мы судим об изучаемой характеристике личности (ХЛ) посредством психометрически или теоретически обоснованного отношения между результатами теста и величиной критерия (К): ДД — К — ХЛ.

Таким образом, можно сказать, что критерий — это очевидный показатель тех характеристик личности, которые тест должен измерять, а именно — показатель, определяемый независимо от предъявления теста. Было бы ненаучным, если бы критерий исследовался и выражался — сознательно или неосознанно — в зависимости от знания тестовых результатов отдельных испытуемых.

Считаем необходимым здесь подчеркнуть, не вникая в подробности, что отношение «тест — критерий — характеристика личности» обычно представляет сложную структуру. Выбранный критерий может релевантно выражать лишь определенный компонент этой структуры, причем другой критерий выражает уже следующий аспект. На этой основе — кроме иных факторов — может возникнуть разногласие между различными авторами при определении валидности (слепая валидизация).


Раздел 3. Теоретические Проблемы Диагностических Методов

75


Мы уже отмечали, что критерий должен быть очевидным, объективно надежно и легко определимым и по возможности репрезентативным показателем изучаемой характеристики. Критерием может служить и ранее проверенный практический тест или общепринятая хорошая теория.

Критерием может служить и возраст — при условии, что с возрастом регулярно повышаются или снижаются показатели изучаемого явления; иными общеопределенными критериями являются: пол, диагноз врача, отметка в школе, далее, например, разделение испытуемых на «имеющих» и «не имеющих» определенную характеристику, распределение испытуемых по степени выраженности (от максимума до минимума) изучаемой характеристики, применение техники «угадай, кто» и т. и.

Критерии можем разделить в зависимости от того, касаются ли они преимущественно достижений деятельности или постоянных характеристик и объективных обстоятельств.

Группу деятелъностных критериев Представляет, например, «производительность», выраженная в количестве продуктов, далее качество результата труда, заработок, время, необходимое на овладение деятельностью, и т. д.

К постоянным и объективно данным критериям Можно отнести: возраст, пол, количество пропусков на работе, время пребывания на одной работе (на предприятии), текучесть кадров, несчастные случаи, повторение курса обучения, излечение и т. п.

Результаты критерия редко бывают представлены в шкальных единицах (т. е. в интервалах или в равных единицах измерения в системе измерения), чаще всего они представлены в единицах квантиля: это порядковые степени (Rating), Порядковое место (Rankling) Или только качественные (номинальные) категории/типы.

Во многих случаях поэтому целесообразно дихотомизировать значение критерия или разделить его на соответствующее количество степеней. Однако дихотомизацию нельзя механически проводить по медиане. Ведь мы не знаем, каким на самом деле является распределение значений критерия в исследуемой выборке. Скажем, мы хотели бы с помощью какого-нибудь теста определять индивидов с безошибочным и точным наблюдением. Если мы в качестве критерия возьмем количество пропущенных ошибок в тексте, тогда у половины испытуемых окажется в тесте 0-4 ошибки, а у второй половины 5 и больше ошибок. Но нам нужна группа, которая работает безошибочно (а это только 20 % Испытуемых). Высоковероятно, что психические явления не бывают, как правило, распределены по кривой нормального распре-


76___________ Часть I. Психодиагностика Теоретико-Методологические Аспекты

Деления Гаусса. Значит, целесообразно, например, в категорию «имеет характеристику» включить 80 % испытуемых со значением критерия от максимума по уровень, соответствующий 21 %, а в категорию «не имеет характеристики» включить оставшиеся 20 % лиц, и т. п.

Валидность Выражает Практическую Полезность Теста, Его Диагностическую И Прогностическую Силу И Возможность Его Использования В Определенных Целях.

Естественно, в процессе систематического изучения отношений между результатами тестирования и различными критериями мы убеждаемся, что адекватность теста зависит от исследовательских целей. Тест имеет столько валидностей, сколько имеется критериев. Определенный тест интеллекта является, например, отличным инструментом для определения вербальной находчивости, но он мало годится для определения способности мысленного сопоставления.

Почти каждый тест предоставляет нам несколько различных диагностических показателей (например, диагностическими показателями в тесте зеркального рисования являются: время, нажим, количество срывов, скорость обучения и т. п.). Поэтому требуется определить валидность диагностических показателей по отдельности или определить общую валидность всего теста в целом.

Валидизация Теста Это Поиск Ответа На Вопрос, Измеряет Ли Данная методика То, Что, По Замыслу Автора, Она Должна Измерять, И Насколько точно Она Это Делает.

Вообще это изучение всего того, что данная методика выявляет: релевантности, точности, практической полезности, диагностической и прогностической силы и адекватности теста для поставленных целей.

Количественное или качественное выражение адекватности измерения посредством теста, т. е. определение исследуемой характеристики личности, называется индексом валидности.

Когда Мы Имеем В Виду Пригодность Теста Для Определенной Цели, Мы говорим О Его Адекватности; Когда Мы Хотим Сказать, Что Результаты Теста Являются Точным И Метким Изображением Меры Или Своеобразия исследуемой Характеристики, Мы Тем Самым Определяем Их Действительность. Однако На Практике До Сих Пор Не Различаются Адекватность теста Как Средства И Действительность Его Результатов: Одно И Другое коротко Мы Называем Валидностью.


Раздел 3. Теоретические проблемы диагностических методов

77


Когда мы проверяем действительность теста, чаще всего нас интересует, существует ли вообще предполагаемое отношение или по крайней мере какое-нибудь отношение теста к любому критерию (речь идет о какой-то «разведочной» валидности) и насколько это отношение является тесным.

Хотя мы и говорим об отношении, это не значит, что валидность должны изучать лишь с помощью корреляций. Отношение мы можем определять также с помощью уравнения регрессии, ^-критерия различий между результатами тестирования в группе наилучших по критерию и средним числом результатов тестирования оставшихся испытуемых. Существует ряд других методов, включая непараметрические тесты.

Какое количество испытуемых необходимо иметь для подсчета валидности?

В общем можно сказать, что это зависит от применяемой модели валидизации, от эффективности использованной статистической обработки и от принятого уровня значимости. Для обычных целей требуется не менее 50 испытуемых, но оптимальное количество — более 200. Это прежде всего относится к корреляционной модели валидизации.

Часто также возникает вопрос: Какими должен быть уровень валидности, чтобы она была приемлемой?

Если исходить из простого соображения, что при нулевой валидности геста мы случайно выберем 50 % Испытуемых правильно, тогда любая валидность выше нуля повышает процент правильного выбора с помощью теста. Но минимальный уровень приемлемой валидности теста в целях выбора зависит прежде всего от так называемого отношения выбора, т. е. отношения количества выбранных к общему количеству всех кандидатов. Чем это отношение благоприятнее (т. е. чем больше кандидатов мы имеем и чем меньше из них мы выбираем), тем более низкая валидность теста является для нас достаточной. Принято считать, что приемлемой считается любая статистически значимая валидность. Низкой считается валидность 0,20-0,30, средней — валидность0,30-0,50, а высокой — валидность больше 0,60. Но это касается корреляционной модели.

Почему исследования по валидизации заканчиваются неудачей?

Одной из причин может быть то, что предиктором является опросник, а критерием — шкала оценок. То есть сопоставляются методы изучения двух разных уровней личности.

- Если мы с помощью соответствующей модели валидизации получим неубедительный результат (слишком низкий индекс валидности), это еще не означает, что тест невалиден. Причин этому может быть


78_________ Часть I. Психодиагностика Теоретико-Методологические Аспекты

Много. Например, тест валиден в совсем иной области, чем та, которую мы изучаем. Мы также могли допустить ошибку в подсчетах. Доводом может быть и то, что мы применяли линейные корреляции, в то время как отношение между тестом и критерием является нелинейным. Поэтому всегда полезно отношение между тестом и критерием изобразить графически (на точечной диаграмме).

В последнее время указывается и на другой важный довод, который может способствовать в будущем пересмотру всех до сих пор существующих работ по валидизации. Речь идет о действии так называемых переменных-модераторов. При прогностической валидизации теста способностей но отношению к успеху в будущем было обнаружено, что наивысшую валидность имели тесты у стабильных экстравертов, вто время как у лабильных экстравертов корреляция была около нуля. К переменным-модераторам вероятно принадлежит и теоретически предполагаемая переменная, называемая Предсказуемостью. Большее количество испытуемых с низкой предсказуемостью в группе, на которой осуществляется валидизапия, может значительно занизить индекс валидности. Предсказуемость вероятно представляет комплекс характеристик, которые обесценивают результат тестирования или искажают критерий у разных испытуемых в разной степени. Валидность могут снижать и так называемые Супрессоры, Т. е. переменные, минимально коррелирующие с критерием, но зато имеющие общую дисперсию с невалидной частью проверяемого теста.