СОВЕРШЕНСТВОВАНИЕ ПСИХОДИАГНОСТИКИ ПОСРЕДСТВОМ МАТЕМАТИЧЕСКОЙ МЕТОДИКИ МНОГОМЕРНОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ЭМПИРИЧЕСКИХ СРЕДНИХ

А. В. Воробьев

178 Научно-практический центр Генерального штаба ВС РФ, Москва

Психодиагностика как практическая задача предполагает получение данных о различных свойствах личности. С этой целью обычно применяются тесты. Данные, полученные с помощью тестов, обрабатываются различными математическими процедурами. Они позволяют получить комплексные показатели для оценки степени выраженности различных психологических свойств личности. Эти показатели будут являться предварительными данными для окончательной диагностики в интересах психотерапии.

Этот этап психодиагностики нуждается в совершенствовании как в части содержания тестов, так и в части используемого математического аппарата. В настоящее время применяется ряд математических процедур, которые опираются на математические методы, основанные либо на критерии автоинформативности системы признаков, либо на внешнем критерии. Рассмотрим данные методы.

Одна из главных особенностей методов, основанных на критерии автоинформативности системы признаков, заключается в том, что они не требуют наличия внешнего критерия. Формальные алгоритмы рассматриваемой группы методов непосредственно не оперируют обучающей информацией о требуемом значении диагностируемой переменной. В то же время эта информация в неявном виде всегда присутствует в экспериментальных данных. Она закладывается на самом первом этапе конструирования психодиагностического теста, когда специалист формирует исходное множество признаков, каждый из которых, по его мнению, должен отражать определенные аспекты тестируемого свойства. При этом под отражением данного свойства отдельным признаком, как правило, понимается самый простой вид связи признака с диагностируемым показателем – линейная корреляция. Если тестируемое свойство гомогенно, то имеются все основания полагать, что мерой информативности для окончательного отбора признаков может служить степень согласованного действия этих признаков в нужном направлении.

Внутренняя согласованность заданий теста является важной категорией методов, опирающихся на критерий автоинформативности системы признаков. Согласованность измеряемых реакций испытуемых на тестовые стимулы означает то, что они должны иметь статистическую направленность на выражение общей, главной тенденции теста.

На приведенных представлениях базируются практически все методы построения психодиагностических тестов, опирающиеся на критерий автоинформативности системы признаков и использующие категорий внутренней согласованности заданий теста. Ниже будут рассмотрены два наиболее важных с нашей точки зрения метода этой группы: метод главных компонент и факторный анализ.

Метод Главных компонент, предполагающий ранжирование линейных комбинаций исходных признаков по размеру дисперсии, безусловно, имеет хороший математический потенциал для решения задач в интересах психодиагностики. Тем не менее, при использовании данного метода подразумевается, что ценную для диагностики информацию можно отразить в линейной модели, которая соответствует новой координатной оси в данном пространстве с максимальной дисперсией распределения проекций исследуемых объектов. Такой подход является продуктивным, когда явное большинство заданий теста согласованно «работает» на проявление тестируемого свойства и подавляет влияние иррелевантных факторов на распределение объектов. Положительный результат будет получен и при сравнительно небольшом объеме группы связанных информативных признаков, но при несогласованном взаимодействии посторонних факторов. Таким образом, эффективность применения метода главных компонент высока только для тестов, имеющих высокие показатели надежности и валидности.

В отличие от метода главных компонент Факторный анализ Основан не на дисперсионном критерии автоинформативности системы признаков, а ориентирован на объяснение имеющихся между признаками корреляций. Поэтому он применяется в более сложных случаях, когда из экспериментальных данных очень сложно выделить тестируемое свойство объекта, основываясь только на дисперсионном критерии.

Одна из серьезнейших проблем использования метода факторного анализа заключается в том, что задачу факторного анализа нельзя решить однозначно. Поэтому факторизацию корреляционной матрицы можно произвести бесконечно большим числом способов и результат любого линейного ортогонального преобразования будет иметь полноправное существование [ 11 ].

Известно большое количество методов факторного анализа (ротаций, максимального правдоподобия и др.). В вопросе о том, какой из них лучше, наше мнение совпадает с мнением В. В Александрова и соавт. [ 2 ], Они считают, что практически все методы дают весьма близкие результаты. Это же подтверждается словами одного из основоположников факторного анализа Г. Хармана: «Ни в одной из работ не было показано, что какой-либо один метод приближается к "истинным" значениям общностей лучше, чем другие методы... Выбор среди группы методов "наилучшего" производится в основном с точки зрения вычислительных удобств, а также склонностей и привязанностей исследователя, которому тот или иной метод казался более адекватным его представлениям об общности» [ 13, 15 ].

Рассмотренные математические методы, основанные на критерии автоинформативности системы признаков, незаменимы при построении психодиагностических тестов. Но, в связи с отсутствием в их механизме алгоритма сравнения с внешним критерием, они не могут быть предложены в качестве математических процедур для решения проблемы повышения точности и достоверности выявления психологических свойств личности.

Обратимся к рассмотрению математических методов, основанных на использовании внешнего критерия. Наиболее популярным методом данного класса является Регрессионный анализ. Однако в психодиагностической практике применение классических схем регрессионного анализа с развитым математическим аппаратом оценки параметров регрессионной модели часто вызывает большие сложности. Причин указанных сложностей немного, но они весьма весомы.

Во-первых, серьезной проблемой является специфический характер исходных психодиагностических признаков и внешнего критерия, порождающий сложные нелинейные зависимости.

Во-вторых, число исходных признаков, подвергающихся эмпирико-статистическому анализу в психодиагностических исследованиях, велико (может достигать несколько сотен) и между ними, как правило, встречаются объемные группы сильно связанных признаков. В этих условиях возникает явление мультиколлинеарности, приводящее к плохой обусловленности матрицы ковариации. В этом случае решение является неустойчивым [ 5, 6 ].

Заслуживающими внимания являются методы Дискриминантного анализа. Они ориентированы на тот случай, когда внешний критерий измерен в номинальной шкале или связь этого показателя с исходными признаками является нелинейной и носит неизвестный характер [ 7, 10, 12 ]. В этом случае испытуемые в соответствии с внешним критерием разбиваются на группы (классы), а эффективность диагностической модели рассматривается под углом зрения ее способности разделять (дискриминировать) диагностируемые классы.

На практике, когда число исходных признаков велико, использование метода встречает значительные трудности. Это связано, с одной стороны, с нереальностью даже простого просмотра всех точек дискретного пространства дихотомических признаков. Так, например, если использовать в качестве исходных признаков для построения диагностического правила утверждения опросника MMPI (550 вопросов), то размерность пространства будет составлять 2550. С другой стороны, даже при гораздо меньшем количестве признаков для достоверной оценки условных вероятностей необходимо иметь результаты обследования очень большого количества испытуемых.

Целесообразность применения типологического подхода обусловлена недостаточной эффективностью линейных диагностических моделей [ 8 ]. Так, в [ 14 ] отмечается, что это простейший способ объединения индивидуальных факторов для представления в нелинейных диагностических моделях.

В условиях неоднородности обучающей выборки при типологическом подходе вместо линейных диагностических моделей используются более точные нелинейные модели. Решение задачи построения нелинейных моделей из-за отсутствия априорных сведений о виде искомых функций достигается с помощью методов Кусочно-линейной аппроксимации.

Как известно, задаче разбиения объектов на однородные группы уделяется значительное место в общей проблематике анализа данных. Методы решения этой задачи носят разные названия (например, автоматическая классификация, распознавание без учителя, кластерный анализ и т. д.), но имеют одинаковую сущность. Все они в явной или неявной форме опираются на категорию близости (различия) объектов в пространстве признаков. Слабое место данного подхода заключается в трудно формализуемом и нечетком определении понятия однородности группы объектов. Поэтому решение конкретной задачи выделения однородных групп объектов не лишено всегда субъективной оценки исследователя.

Метод сравнения с прототипом является представителем методов распознавания образов. Он применяется, например, тогда, когда распознаваемые классы отображаются в пространстве признаков компактными геометрическими группировками [ 3, 4, 5, 8, 9 ].

На первый взгляд метод распознавания, основанный на сравнении с прототипами диагностических классов, достаточно прост и понятен. Но на практике перед исследователем, намеревающимся применить данный подход, встают непростые задачи. Это в первую очередь выбор меры близости (метрики), что может существенно повлиять на пространственной конфигурации распределения объектов. И, во-вторых, самостоятельной проблемой является анализ многомерных структур экспериментальных данных. Обе эти проблемы особенно остро встают перед исследователем в условиях высокой размерности пространства признаков, характерных для психодиагностических задач.

Рассмотренные математические методы, использующие внешний критерий, в силу указанных недостатков не могут быть непосредственно применены в качестве математических процедур для решения задачи повышения точности и достоверности выявления психологических свойств личности. Тем не менее, в каждом из них есть механизмы, на основе которых можно разработать методику, способную решить данную задачу.

Прежде чем непосредственно перейти к рассмотрению предлагаемой нами методики, необходимо учесть еще один немаловажный аспект – максимальное использование первоначальной психодиагностической информации.

Традиционно все ответы тестовой методики разбивались на несколько групп, которые соотносились со шкалами. Предполагалось, что каждая шкала измеряет какое-то одно свойство личности. Численные значения шкал использовались в дальнейшей работе. В том случае, когда методика не была должным образом адаптирована к конкретной популяции, подобный подход начинает давать серьезные сбои.

В создавшихся условиях предлагается использовать подход, максимально сохраняющий первоначальную информацию при ее обработке. Ответы по вопросам тестов не сворачиваются в шкалы, что ведет к потере первоначальной информации, а непосредственно участвуют в вычислении, что значительно повышает их информативность и наилучшим образом адаптирует методику к имеющимся выборкам. В результате на каждую вновь создаваемую по такому принципу шкалу будут работать все вопросы теста. Новые шкалы можно разработать для любых интересующих психологических характеристик. Единственным необходимым условием здесь является наличие некоторой выборки, прошедшей тестирование по данной методике и имеющей внешние критерии (оценки валидно-сти рассматриваемых психологических характеристик).

Теперь необходимо решить математическую задачу – найти алгоритм построения новой шкалы таким образом, чтобы она имела наибольшую статистическую зависимость с реальными показателями. В качестве одного из вариантов искомого алгоритма нами предлагается методика Многомерной классификации На основе эмпирических средних. Ее сущность довольна проста – по выборке, имеющей внешний критерий, строится несколько образов, представляющих собой математическое отражение психологической сущности психодиагнастических данных. Например, совокупность образов (групп) для степени выраженности признака может быть такой: {«сильная», «средняя», «слабая»}. Для каждого образа вычисляется, так называемая, базовая информация, содержащая эмпирические средние.

Математически описанная процедура выражается следующим образом: по обучающей выборке (т. е. выборке, имеющий внешний критерий) находятся эмпирические средние для каждой группы Gk И для каждой шкалы (вопроса теста).

Полученный двухмерный массив данных является базовой информацией для принятия решения при определении принадлежности последующих испытуемых к одной из групп. Для этого вычисляются расстояния в N-мерном пространстве между результатами теста данного испытуемого и эмпирическими средними.

Где: I – порядковый номер шкалы (вопроса теста); N – количество шкал (вопросов теста); J – порядковый номер испытуемого; Mk – количество испытуемых, принадлежащих группе Gk; K – порядковый номер группы Gk; K – количество групп Gk; Xij – массив исходных данных.

Минимальное из полученных расстояний позволяет сделать вывод о принадлежности испытуемого к определенной группе:

Здесь необходимо отметить, что данный вариант формирования базовой информации первоначально был ориентирован на многоальтернативные опросники. Тем не менее, исследования показали, что он позволяет получать хорошие результаты и для дихотомических переменных.

Кроме того, необходимо отметить интересную особенность методики многомерной классификации на основе эмпирических средних по скрытому учету дифференциальных способностей вопросов теста. Действительно, чем меньше различий в ответах на какой-то вопрос у представителей разных групп, тем более близкими будут соответствующие значения в базовой информации, и тем меньше будет разность в расстояниях между этими значениями и ответом испытуемого. Следовательно, данный малоинформативный вопрос фактически будет иметь наименьшее влияние на конечный результат. В то же время вопросы, наилучшим образом дифференцирующие принадлежность к разным группам, будут иметь наибольшее влияние.

Для апробации методики многомерной классификации на основе эмпирических средних требовалась большая выборка, имеющая объективный внешний критерий. Такому требованию удовлетворяли первичные данные, полученные в ходе комплексной научно-исследовательской работы в целях совершенствования мероприятий профессионального психологического отбора в Вооруженных Силах Российской Федерации. В общей сложности объем выборки составил 1437 обследуемых лиц.

Для определения реальных возможностей методики многомерной классификации на основе эмпирических средних нами был проведен сравнительный анализ ее эффективности по сравнению с существующей методикой, широко применяемой в настоящее время в Вооруженных Силах Российской Федерации согласно «Методическим указаниям для военных комиссариатов». Значения коэффициентов корреляции категорий профессиональной пригодности с внешним критерием, полученные с помощью двух сравниваемых методик, представлены в табл. 1.

Таблица 1 Коэффициенты корреляции прогностических значений категорий профессиональной пригодности с внешним критерием

Данные, представленные в табл. 1, однозначно показывают наибольшую статистическую зависимость прогнозов с внешним критерием, в условиях, когда использовалась методика многомерной классификации на основе эмпирических средних.

При первоначальном исследовании в качестве метрики для метода многомерной классификации на основе эмпирических средних использовалось Евклидово расстояние, так как компоненты вектора наблюдений (вопросов теста) как правило, однородны по физическому смыслу и одинаково важны для классификации. Поскольку выбор метрики может значительно повлиять на конечный результат, то было проведено исследование влияние данного фактора на эффективность прогноза профессиональной успешности. Предварительное исследование определило семейство следующих метрик, рекомендуемых для более детального рассмотрения:

Евклидово расстояние:

Rk = J ( Xij - Xik )2 , K=1, K

V I=1 Хеммингово расстояние Rk(H).

Rk(H) = | Xij-Xik|, K=1, K

Метрика Rk(К), Которую в дальнейшем будем называть кубической

I=1

Где: I - порядковый номер шкалы (вопроса теста);

N - количество шкал (вопросов теста);

J - порядковый номер испытуемого;

K - порядковый номер группы Gk;

K - количество групп Gk;

Xij - массив исходных данных.

Результаты проведенных исследований представлены в табл. 2

Таблица 2 Коэффициенты корреляции прогностических значений категорий профессиональной пригодности с внешним критерием при использовании различных метрик

0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40

^ - Евкл. расст. - О - • Хемм. расст. ^^Куб. метр.

123456

Рис. Коэффициенты корреляции прогностических значений

Категорий профессиональной пригодности с внешним

Критерием при использовании различных метрик.

Анализ данных табл. 2 и рис. показывает, что использование в качестве метрики Евклидова расстояния, Хеммингова расстояния и кубической метрики для методики многомерной классификации на основе эмпирических средних дает результаты, близкие в одних случаях и значительно различающихся друг от друга в других. Из представленных шести случаев наилучшие значения коэффициентов корреляции получены в трех случаях для Евклидова расстояния, и в трех – для кубической метрики. Хеммингово расстояние продемонстрировало явное отставание от других метрик. Сопоставляя средние значения коэффициентов корреляции, можно сделать вывод о том, что для методики многомерной классификации на основе эмпирических средних предпочтительнее применять кубическую метрику.

Проведенные нами исследования показали, что для конкретных специальностей методика многомерной классификации на основе эмпирических средних является еще более эффективной: значения коэффициентов корреляции находятся в пределах от 0,76 до 0,94. Следовательно, чем более однороднее группа обследуемых, тем точнее получаемые результаты.

Таким образом, использование предлагаемой методики многомерной классификации на основе эмпирических средних в качестве математической процедуры для обработки психодиагностических данных, полученных в результате тестировании, позволяет повысить точность и достоверность оценки степени выраженности различных психологических свойств личности, что в конечном итоге может существенно повысить эффективность психотерапевтической практики.

Литература

1. Айвазян С. А. Прикладная статистика. Статистическое оценивание зависимостей / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. – М. : Финансы и статистика, 1985.– 484 с.

2. Александров В. В. Анализ данных на ЭВМ (на примере системы СИТО) / В. В. Александров, А. И. Алексеев, Н. Д. Горский. – М. : Финансы и статистика, 1990. – 192 с.

3. Вапник В. Н. Теория распознавания образов (статистические проблемы обучения) / В. Н. Вапник, А. Я. Червоненкис. – М. : Наука, 1974.– 415 с.

4. Горелик А. Л. Методы распознавания / А. Л. Горелик, В. А. Скрип-кин. – М. : Высшая школа, 1989. – 232 с.

5. Губерман Т. А. Применение алгоритмов распознавания образов в психодиагностике / Т. А. Губерман, Л. Т. Ямпольский // Вопр. психологии. – 1983. – № 5. – С. 118–125.

6. Демиденко Е.3. Линейная и нелинейная регрессия / Е.3. Демиден-ко. – М. : Финансы и статистика, 1981. – 302 с.

7. Дубов А. М. Многомерные статистические методы / А. М. Дубов, В. С. Мхитарян, Л. И. Трошин. – М., 1998. – 352 с.

8. Дюк В. А. Компьютерная психодиагностика / В. А. Дюк. – СПб., 1994. – 364 с.

9. Загоруйко Н. Г. Методы распознавания и их применение / Н. Г. За-горуйко. – М. : Сов. радио, 1972. – 206 с.

10. Мешалкин Л. Д. Локальные методы классификации / Л. Д. Ме-шалкин // Статистические методы классификации. – М. : МГУ, 1969. – Вып. 1. – С. 58–78.

11. Налимов В. В. Теория эксперимента / В. В. Налимов.– М. : Наука, 1971. – 208 с.

12. Справочник По прикладной статистике : в 2-х т. / под ред. Э. Ллойда, У. Ледермана, С. А. Айвазяна, Ю. Н. Тюрина – М. : Финансы и статистика, 1990. – Т. 2. – 526 с.

13. Харман Г. Современный факторный анализ / Г. Харман. – М. : Статистика, 1972. – 486 с.

14. Ямпольский Л. Т. Типологический подход к прогнозу клинических особенностей хронического алкоголизма / Л. Т. Ямпольский // Вопр. психологии. – 1986. – № 2. – С. 91–99.

15. Harshman R. A. PARAFAC 2: Mathematical and Technical Notes // Working Papers in Phonetics 22. – University of California at Los Angeles, 1972. – P. 332–337.