Корреляция и регрессия (correlation and regression)

Корреляция и регрессия (correlation and regression)

Рассмотрение К. и Р. строится вокруг следующих осн. вопросов: а) существует ли между переменными X и Y такого рода связь, что по известным нам значениям X мы могли бы, по крайней мере с разумной степенью точности, предсказать значения Y? б) Какова сила (или теснота) этой связи между переменными X и Y? в) При условии существования такой связи между X и Y, каково оптимальное правило (или, выражаясь математически, уравнение) для предсказания Y по X и насколько хорошо оно обосновано? Когда мы занимаемся оценкой тесноты или степени связи (строго говоря, степени линейной связи), мы имеем дело с К. Термин «Р.» относится к вопросам, связанным с предсказанием значений одной переменной по значениям др.

Коэффициент корреляции

Коэффициент К. произведения моментов Пирсона (r), — чаще называемый просто коэффициентом К., — яв-ся показателем силы линейной связи между двумя переменными и изменяется в пределах от +1 до -1. Нулевое значение коэффициента К. Пирсона указывает на отсутствие линейной связи между X и Y; положительные значения этого коэффициента свидетельствуют о существовании тенденции увеличения Y по мере увеличения X, тогда как его отрицательные значения свидетельствуют о существовании противоположной тенденции: уменьшения Y по мере увеличения X.

Прямолинейная К. между X и Y имела бы место в том случае, если бы значения Y можно было безошибочно предсказать по значениям X, используя уравнение прогноза вида Y = аХ + b, где а и b — соответствующим образом подобранные константы. При а > 0 наблюдалась бы полная положительная К. (+1), а при а < 0 — полная отрицательная корреляция (-1). Уравнение вида Y = аХ + b называется линейным уравнением, поскольку при построении графика функции Y от X все точки (X, Y), удовлетворяющие данному уравнению, ложатся на прямую линию.

Коэффициент К. Пирсона — это показатель степени линейной связи, а не связи вообще. Напр., он может указывать на полное отсутствие К. (r = 0) между двумя переменными, связанными функциональной нелинейной зависимостью. Из-за этих ограничений коэффициент К. Пирсона имеет тенденцию недооценивать степень связи между переменными.

Несмотря на то что существует неск. различных, хотя и эквивалентных формул для вычисления коэффициента К. Пирсона, наиболее известной расчетной формулой яв-ся следующая:

где N - число парных оценок по X и Y.

При интерпретации коэффициента К. следует проявлять осторожность. Одного только факта К. между переменными X и Y еще недостаточно для автоматического вывода о существовании между ними причинной связи. X может коррелировать с Y, потому что: а) изменения X вызывают изменения Y; б) изменения Y вызывают изменения Х; в) изменения др. переменных служат причиной изменений как X, так и Y. Напр., у уч-ся начальной школы объем словарного запаса положительно коррелирует с их ростом, потому что обе эти переменные связаны с возрастом. К тому же коэффициент К. Пирсона может снижаться вследствие «ограничения широты выборки».

Сопоставление корреляционных и экспериментальных исследований

Эксперим. исслед. предполагает манипулирование одной или несколькими независимыми переменными и часто имеет рез-том формулирование причинно-следственных утверждений в отношении воздействия независимых переменных на зависимую переменную. Корректность таких утверждений, как правило, обеспечивается соблюдением трех следующих условий: а) на начальном этапе исслед. эксперим. группы не должны систематически различаться по всем контролируемым переменным; б) эти группы подвергаются одинаковому воздействию всех контролируемых факторов, за исключением воздействия независимой переменной; в) после эксперим. воздействия, вызванного манипулированием независимой переменной, группы надежно различаются между собой по уровню зависимой переменной.

Корреляционное исслед. не предполагает манипулирования независимыми переменными и в своей простейшей форме сводится к измерению ряда переменных и определению силы связей между ними. Хотя такие исслед. обеспечивают нас информ. о степени связи и даже позволяют предсказывать значения одних переменных по данным, к-рыми мы располагаем в отношении др. переменных, они, как правило, не позволяют делать выводы о причинно-следственных связях между переменными. Однако в наше время исследователям доступны методы статистического анализа, дающие возможность проверить, насколько конкретная корреляционная плеяда согласуется с определенной моделью причинно-следственных отношений.

Частный коэффициент К. rXY.W является показателем силы линейной связи между переменными X и Y при исключенном влиянии переменной W. Он также позволяет «очистить» парную К. от примешивающегося влияния более чем одной переменной.

Множественная корреляция

Предположим, что мы хотим добиться наилучшего предсказания переменной Y (критериальной, или зависимой, переменной) на основе ряда др. переменных X1, Х2, Х3, ..., Хp (прогнозирующих, или независимых, переменных). Напр., нам захотелось предсказать степень успешности обучения в аспирантуре на основе студенческих отметок и количественных оценок письменных экзаменов для аспирантов (GRE). Пользуясь методами построения множественной регрессии, мы можем получить выражение вида:

b0 + b1Х1 + ... + bpXp,

где b0, b1, ... bp — соответствующим образом подобранные константы, которое оптимально предсказывает Y. Коэффициент множественной К., r, представляет собой коэффициент К. произведения моментов Пирсона между наилучшим предсказанием и фактическими значениями предсказываемой переменной, и, как таковой, служит мерой правильности предсказания на основе множественной регрессии.

См. также Корреляционные методы, Статистика в психологии

А. Д. Велл