Кластерный анализ (clucter analysis)

Кластерный анализ (clucter analysis)

К. а. — это общий термин для целого ряда методов, используемых для группировки объектов, событий или индивидов в классы (кластеры) на основе сходства их характерных признаков. Несмотря на отсутствие единого определения кластера, во всех его определениях особо подчеркиваются такие условия, как сходство, однородность и близость. Если воспользоваться специальной терминологией, то кластеры можно определить как однородные подгруппы, формируемые методом, к-рый минимизирует дисперсию внутри групп (кластеров) и максимизирует дисперсию между группами.

Методики кластеризации используются для установления сходных подгрупп объектов или индивидов и для построения таксономии. Т. о., они помогают исследователю в описании структуры совокупности объектов и отношений между ними, а тж в формулировании законов и утверждений относительно классов объектов.

Все методы К. а. состоят из четырех осн. шагов: а) выбор мер и произведение измерений характерных признаков объектов или индивидов, подлежащих классиф.; б) задание меры сходства; в) формулирование правил и определение порядка формирования кластеров; г) применение этих правил к данным для формирования кластеров. Т. к. каждый шаг предполагает выбор из множества возможных процедур, был разраб. широкий спектр методик кластеризации.

На первом шаге принимается решение о том, какие характерные признаки или свойства будут использоваться в качестве основы классиф. Конечно, это решение будет зависеть от проблемы исслед. и природы классифицируемых объектов. Хотя обычно все признаки имеют одинаковые веса, не исключается возможность выбора процедуры приписывания различных весов.

Принимаемое на втором шаге решение связано с выбором подходящей меры сходства. Это м. б. число общих признаков, корреляция между признаками, метрика (пространства классиф.) или к.-л. др. мера.

На третьем шаге выбирается сам метод классиф. Агломеративные методы начинают с анализа отдельных объектов или индивидов и объединяют их в группы; методы расслоения начинают с анализа полной группы и делят ее на подгруппы. Классиф. по одному признаку приводят к классам, все элементы к-рых имеют по крайней мере один общий отличительный признак; классиф., осн. на сравнении неск. признаков, приводят к группам, к-рые обладают рядом общих свойств, но не обязательно обладают к.-л. одним общим отличительным признаком.

Принимаемое на четвертом шаге решение касается момента остановки процедуры классиф. или, проще говоря, определения количества сформированных групп. Это может определяться как внутренними критериями (напр., естественным разбиением полной группы на подгруппы), так и внешними критериями (т. е. тем, какая схем. классиф. приводит к наиболее полезным закономерностям). Наконец, необходимо решить, будет ли использоваться иерархическая или неиерархическая схем. классиф. При выборе иерархической схем. сформированные группы будут находиться на различных уровнях обобщенности (как в биолог. таксономиях); в случае выбора неиерархической схемы получаются группы одного уровня обобщенности (как при использовании Q-техники факторного анализа). Рез-ты этих решений будут определять подходящий метод К. а. и характер сформированных кластеров.

См. также Критериальные меры, Методы эмпирического исследования, Измерение, Статистика в психологии

Ф. Г. Браун