Экспериментальные планы (experimental designs)

Экспериментальные планы (experimental designs)

Э. п. служат руководством для исследователей при проведении эксперимента. Эксперименты представляют собой запланированное введение фактора в ситуацию с целью установить его связь с изменением в данной ситуации. Вводимый фактор обычно называют вмешательством, воздействием или независимой переменной; тогда наблюдаемое изменение будет мерой зависимой переменной. Э. п. включают подробное описание того, сколько (и каких) групп испытуемых должно быть создано и каким образом предполагается исключить наиболее правдоподобные альтернативные объяснения. Главные задачи Э. п. — связать вмешательство с эффектом и исключить все др. объяснения наблюдаемого изменения.

Простейшие Э. п. заключаются в воздействии, оказываемом на одного испытуемого или группу испытуемых, вместе с наблюдениями до и после этого воздействия, проводимыми с целью установления изменение в их состоянии.

Э. п. используются не только для установления связи переменных с их эффектами, но и для исключения альтернативных объяснений, в к-рых, если употреблять терминологию теории планирования эксперимента, переменные смешиваются.

Только когда мы разделяем эти эффекты, мы можем приписать наблюдаемое изменение определенному воздействию, напр., цвету фона дисплея; в противном случае мы вынуждены прибегать к смешанному альтернативному объяснению, напр., приписывая то же самое изменение влиянию практики. На языке теории планирования эксперимента мы бы сказали, что контролируем смешивание переменных. Как можно этого добиться? Существует четыре общепринятых метода контроля: а) исключение смешиваемого фактора; б) измерение эффекта смешиваемого фактора и введение соответствующей поправки; в) сравнение эквивалентных ситуаций, одна из к-рых подвергается влиянию смешиваемой переменной и эксперим. воздействию, тогда как на другую влияет только смешиваемая переменная; г) варьирование эксперим. воздействия при поддержании смешиваемой переменной на одном уровне, чтобы посмотреть, соответствует ли изменение эффекта схеме изменения воздействия. Несмотря на то, что существуют и др. методы контроля, чаще всего используются именно эти четыре.

Базисная логика экспериментальных планов.

1. Стабилизировать ситуацию, ввести воздействие и наблюдать изменение.

2. Если ситуация не может быть стабилизирована и изменяется, то проследить характер изменений, ввести воздействие и установить, привело ли оно к к.-л. нарушениям в характере изменений.

3. Стабилизировать две (или более) эквивалентные ситуации; выбрать одну из них и поддерживать ее постоянство на одном уровне с оставшейся (или оставшимися), за исключением эксперим. воздействия; ввести эксперим. воздействие в другую ситуацию (или его варианты в оставшиеся ситуации) и отметить различия.

4. Соотнести схему подачи/прекращения эксперим. воздействия с характером наблюдаемого изменения; если можно измерить степень воздействия или силу вмешательства, то соотнести силу или интенсивность вмешательства с таким релевантным аспектом как величина или предел изменения. (Этот принцип работает только в том случае, если зависимая переменная возвращается в прежнее состояние при прекращении вмешательства, но не действует в таких ситуациях как ситуация научения, эффекты к-рого отличаются устойчивостью.)

Случайное распределение испытуемых на эксперим. и контрольную группы гарантирует, что эти группы, в среднем, «совместно уравниваются по каждому условию», включ. и предположительно связанные с изучаемым явлением, и непредвиденные, даже иррелевантные условия, такие как число кожных пор и длина ногтей. Действительно, Кэмпбелл и Стэнли считают случайное распределение испытуемых по группам довольно важным вследствие того, что оно обеспечивает защиту от «скрытых» переменных, и называют планы, в к-рых оно не используется, «квазиэкспериментальными», в отличие от использующих его «подлинно экспериментальных планов».

Такие факторы как уровень образования, способность к научению, мотивация и социоэкономический статус, часто оказываются альтернативными объяснениями, к-рые мы хотели бы исключить посредством обеспечения эквивалентности групп. Это достигается путем стратификации, формирования блоков или попарного уравнивания на основе измерения этих переменных с последующим случайным распределением испытуемых по эксперим. и контрольным группам.

Логика сохранения общности всех условий за исключением одного используется и в более сложных планах, таких, напр., как факторные. Такие планы позволяют одновременно проверять эффект нескольких переменных, но в них всегда есть одна или более групп, к-рые отличаются от другой или других групп испытуемых только одним условием или переменной.

Милль отмечал, что когда одно явление изменяется по мере изменения другого, то либо одно из них яв-ся причиной, а другое следствием (или наоборот), либо оба они связаны с общей причиной. Этой логике следуют такие планы как план с разрывом регрессии (служащим признаком эксперим. эффекта) и план типа АБА/АБАБ, а также корреляционные исследования, цель к-рых — выяснить насколько тесно величина одной переменной (напр., оценки в колледже) связана с величиной др. переменной.

Сделать вывод о причинности на основе корреляции весьма затруднительно, так как ковариация может быть обусловлена действием третьей переменной.

Критерии хорошего плана. Хороший план должен уменьшать любую неопределённость, связанную с изучаемыми переменными. Кроме того, в некоторых исслед. экспериментаторы с самого начала стремятся к тому, чтобы полученные результаты можно было обобщить на др. случаи изучаемого явления. План должен обеспечивать решение всех этих задач с наилучшим использованием возможностей, времени и сил исследователя, причем в пределах имеющихся материальных ресурсов и установленных сроков. Он также должен сообразовываться с приемлемой формулировкой проблемы, а не провоцировать на ее изучение при слишком ограниченных условиях, урезая проблему до соответствия собственным требованиям или выделяя для исслед. специфический или нетипичный аспект вопроса. Наконец, при разработке плана должны выбираться такие формулировки, чтобы у общественности не оставалось сомнения в том, что исслед. было проведено со знанием дела и с должным отношением к этическим нормам и институциональным ограничениям. Это большой набор критериев, но такова реальность , с к-рой приходится сталкиваться исследователю.

Для описания некоторых аспектов перечисленных выше критериев Кэмпбелл и Стэнли в 1963 г. использовали термины «внутренняя валидность» и «внешняя валидность». Позже эти термины были уточнены Куком и Кэмпбеллом в книге «Квазиэкспериментирование» (Quasiexperimentation). Способность исслед. связывать переменные именно в той форме, в какой они представлены в исследовании, называется его внутренней валидностью. В частности, внутренняя валидность указывает на способность плана отвергать любые альтернативные объяснения изучаемого явления, кроме объяснения, предполагаемого теорией. Конструктная валидность яв-ся мерой того, насколько форма, в к-рой представляются или измеряются переменные в данном исслед., соответствует тому, что подразумевалось в исходной формулировке проблемы. Валидность статистического вывода характеризует корректность использования стат. в принятии решения о существовании связи. Внешняя валидность относится к возможности распространения полученных данных на др. лиц, иную обстановку и иное время.

Альтернативные объяснения. Важнейшей функцией Э. п. яв-ся исключение альтернативных объяснений, иначе их можно было бы с тем же успехом выбрать в качестве причинных факторов наблюдаемого эффекта, что и предполагаемую теорией причину или эксперим. воздействие. Любое исслед., вероятно, допускает специфические альтернативные объяснения, определяемые конкретной эксперим. ситуацией, но есть несколько общих альтернативных объяснений, к-рые были описаны в работах Кука и Кэмпбелла, а также Кэмпбелла и Стэнли. Они были названы «угрозами валидности», т. к. снижают внутреннюю или внешнюю валидность. Здесь мы можем обсудить лишь некоторые из них.

К фону (history) относятся любые события кроме эксперим. воздействия, к-рые происходят во время исслед. и, вообще говоря, могут оказаться причиной планируемого эффекта.

На протяжении исслед. испытуемые могут становиться старше, мудрее, опытнее или искуснее, хотя это никак не связано с интересующим нас эксперим. воздействием, — такое явление получило название естественного развития (naturation).

Во второй раз испытуемые лучше справляются с тестом, т. к. они уже знакомы с ним, чувствуют себя спокойнее, и т. д. При повторном тестировании на результат начинают влиять факторы, к-рые не были представлены в ситуации первого тестирования.

В результате предварительного тестирования учащийся может получить предостережение относительно того, какие разделы эксперим. программы он должен знать тверже. Выполнение им контрольного теста после обучения по данной программе улучшается по сравнению с тем, каким оно оказалось бы без проведения предварительного тестирования, — эффект взаимодействия претеста и экспериментального вмешательства.

Место статистики в планировании эксперимента. Существует некоторая путаница в том, какова роль статистики в построении плана эксперимента, а именно, план часто рассматривается как следование по любому пути, разрешенному статистикой. Многие планы, — особенно ориентированные на дисперсионный анализ, — популярны именно потому, что их связь со стат. всесторонне изучена, и для них разработаны средства борьбы с неопределенностью и отклонениями от требований нормальности распределения переменных.

В большинстве исслед. статистика, помимо описания данных, выполняет прежде всего функцию выделения из всех альтернативных объяснений эксперим. эффекта одного единственного — «статистически достоверного» — объяснения. В тех случаях, когда этот эффект очевиден, методы статистического вывода теряют свое значение. Но очень немногие психол. явления вызывают столь явный эффект. Поэтому, если все же потребуется прибегнуть к статистическому выводу, то с самого начала необходимо установить работающую связь между Э. п. и стат., поскольку творческий поиск исследователя вполне может привести к планам, для к-рых плохо подходят известные статистические модели. Однако именно требования проблемы должны быть определяющим фактором при выборе плана. Только в том случае, когда для разработанного плана не подходит ни одна статистическая модель, следует проанализировать компромиссные варианты для выяснения того, насколько придется изменить определение проблемы, чтобы приспособить план к одной из существующих статистических моделей.

При применении в некоторых исслед. сложных планов стат. позволяет измерить и исключить влияние одной или более смешиваемых переменных, к-рые в противном случае могли бы обусловить альтернативные объяснения эффекта. Но о каких бы планах ни шла речь, основная защита от всего спектра возможных альтернативных объяснений должна обеспечиваться самими планами, а не статистикой.

Разработка планов. В случае простого исслед. разработка плана — это, в первую очередь, преобразование гипотезы или вопроса в конкретные решения, состоящие в выборе: а) подходящих испытуемых; б) подходящей ситуации или места; в) способа предъявления и управления независимой переменной; г) способа измерения или наблюдения эксперим. эффекта; д) основы сравнения, позволяющей удостовериться, что эффект появился и вызван именно эксперим. воздействием; е) методики проведения эксперимента, определяющей роли и последовательность действий исследователей (кому и когда вводить экспериментальное воздействие, измерять наблюдаемый эффект и т. д.).

Некоторые планы выборочного исследования. Число возможных комбинаций шести описанных выше параметров довольно велико. Сосредоточившись на таких сквозных вопросах как когда и кому предъявляются эксперим. условия (или, иначе говоря, воздействия), а также когда и за кем проводятся наблюдения, мы можем описать некоторые виды широко используемых планов и отметить их сильные и слабые стороны. Для этого условимся, что символом X будет обозначаться воздействие, а символом О — наблюдение или измерение. Время, затрачиваемое на проведение исслед., отображается (в направлении слева направо) расстоянием между этими событиями. Символ R указывает на то, что испытуемые были случайным образом распределены по группам.

План с предварительным и итоговым тестированиями: случайным образом распределенные по экспериментальной и контрольной группам испытуемые тестируются до и после контролируемого воздействия:

Этот широко применяемый план контролирует большое число альтернативных объяснений, включая эффект повторного тестирования, так как обе группы тестируются дважды. Однако взаимодействие «воздействие х тестирование» все же остается неконтролируемым альтернативным объяснением.

План с тестированием только после воздействия отличается от предыдущего отсутствием предварительного тестирования. Он контролирует эффекты тестирования и взаимодействия «воздействие х тестирование», однако требует допущения о том, что в результате рандомизации была достигнута начальная эквивалентность контрольной и эксперим. групп.

План Соломона для четырех групп: Соломон и Лессак объединили особенности двух предыдущих планов таким образом, чтобы соответствующие сравнения давали возможность оценить не только эффект тестирования и его взаимодействие с эксперим. воздействием (при сравнении ОХО с ХО), но и эффективность рандомизации (при сравнении ОХО с ОО); однако этот план требует формирования четырех групп, а значит и большего числа испытуемых.

Планы, контролирующие исходный уровень групп. В планах с попарным уравниванием можно было бы использовать результаты теста интеллекта для объединения лиц с одинаковыми оценками в пары с последующим случайным распределением членов каждой пары в эксперим. или контрольную группу. Это предполагает высокую точность тестовых оценок и в тех случаях, когда в пару некоторым испытуемым не удается подобрать кого-то с близкими к ним результатами тестирования, они автоматически отсеиваются. Очевидно, что отбрасывание таких «неудобных» испытуемых может снижать уровень обобщения рез-тов, особенно если недостаточно представлены оценки в области какого-то одного или обоих краев их распределения.

Более широкое распространение получил способ разбиения на блоки или стратификации, используемый, напр., в рандомизированном блочном плане. Вместо попарного уравнивания, испытуемых распределяют по категориям — блокам (напр., на имеющих низкий, средний или высокий показатель IQ); затем случайно отобранная половина испытуемых каждого блока распределяется случайным образом по эксперим. группам, а оставшаяся половина каждого блока образует соответствующую контрольную группу.

Факторные планы позволяют одновременно анализировать эффекты двух или более переменных. Они предусматривают столько групп испытуемых, сколько необходимо для измерения влияния всех возможных комбинаций переменных.

Такие планы обозначаются по числу категорий каждой переменной (например, 2x2). Произведение числа категорий показывает необходимое количество групп (для нашего примера — 4). Если проводится и предварительное, и итоговое тестирование, то такой план называют факторным планом с повторными измерениями.

Факторные планы позволяют проверять сложные гипотезы, напр., оказывает ли каждая из двух таких переменных, как пол и антропометрические показатели, самостоятельное влияние на внимательность к сигналам на экране радара; будет ли их взаимодействие или сочетание одной из них с третьей переменной — пониженной температурой — усиливать или ослаблять эксперим. эффект; и, наконец, дадут ли все три переменных вместе усиление или ослабление эффекта. Эффекты всевозможных комбинаций называются эффектами взаимодействия.

Латинский квадрат, почти так же как факторный план, позволяет контролировать две или более переменных. В обмен на меньшее количество групп он лишает исследователя части информ., хотя и не самой важной. Свое название этот план получил от старинной головоломки, в к-рой латинские буквы нужно было разместить в таблице таким образом, чтобы определенная буква, обозначающая здесь воздействие или уровень независимой переменной, встречалась только один раз в строке или столбце. В латинском квадрате 3x3 каждый из вариантов программы обучения (А, В, С) может быть случайным образом приписан к комбинации уровней способностей (высокий, средний, низкий) и мотивации (высокий, средний, низкий), так что каждая программа обучения будет один раз опробована на каждом из уровней способностей и на каждом из уровней мотивации.

Потребуется всего лишь девять групп вместо 27 (3 х 3 х 3), необходимых для полного факторного плана. Однако латинский квадрат не даёт всей информ., к-рую предоставил бы факторный план относительно возможного усиливающего или ослабляющего эффекта (взаимодействия) отдельных уровней способностей или мотивации с отдельными вариантами программы обучения.

В основе упоминавшихся выше АБА/АБАБ экспериментов лежат планы с временными рядами. Эти планы предполагают контроль поведения отдельного испытуемого или группы испытуемых на протяжении какого-то отрезка времени через проведение повторных наблюдений и повторных вмешательств или воздействий. Иногда повторяют одни и те же воздействия, а иногда — разные. Если вмешательство эффективно, то вслед за ним должно наблюдаться изменение, так что каждый испытуемый или группа одновременно выполняет роль собственной контрольной группы. Там где эффект воздействий сохраняется как в исслед. научения, на последующие вмешательства могут влиять эффекты предыдущих, и потому этот «эффект множественного воздействия» нужно заранее планировать как возможный примешивающийся и загрязняющий фактор. Напротив, некоторые быстро выводимые организмом транквилизаторы будут незамедлительно проявляться во временной серии наблюдений. Без дополнительных доз их эффект исчезает, но снова проявляется при следующем введении транквилизатора. Если удается показать, что паттерн эффекта совпадает с временным паттерном введения и прекращения эксперим. воздействия, то это является очень убедительным доказательством наличия причинно-следственной связи.

Планы с множественным базисом: эта разновидность планов с временными рядами предписывает измерение одного или нескольких видов поведения через определенные промежутки времени с тем, чтобы установить «базисные линии» [Фоновые характеристики. — Примеч. науч. ред.], и последующее вмешательство в один из видов этого поведения. Если вмешательство оказывается эффективным, то изменение отмечается именно в этом, но не в остальных видах поведения. Позволяя паттерну вернуться в устойчивое состояние, экспериментатор производит вмешательство в поведение др. вида и отмечает изменение в нем относительно второй «базисной линии», и т. д.

См. также Контрольные группы, Методология (научных) исследований, Методы многомерного анализа, Научный метод, Проверка гипотез, Статистика в психологии

Д. Р. Крэсвул