Свойства оценочных средств, Рональд Комер

Важно, чтобы все врачи проводили одинаковые процедуры, когда им приходится пользоваться определенной техникой оценки. Достигнуть этого можно при Стандартизации Методики, обеспечивающей общие стандарты, которым надо следовать, где бы они ни проявлялись.

Стандартизация — Процесс, при котором тест проводится с большой группой людей, и результаты его выполнения служат общим стандартом или нормой, по которым можно измерять показания любого индивида.

<Вопросы для размышления. Как вы можете оценить тесты, которые вам предлагались в школе? Насколько они надежны и валидны? Как вы относитесь к тестам, которые встречаете в журналах?>

Врачи также должны стандартизировать записи результатов оценочных средств, чтобы иметь возможность интерпретировать записи по каждому индивиду. Они могут, к примеру, провести тест с группой людей, и выполнение такого теста может в дальнейшем служить стандартом или нормой, по которым можно измерять показания любого индивида.

Члены группы, которую первоначально выбирают для проведения теста, должны быть типичными представителями большой группы населения.

Если тест на агрессивность, рассчитанный на широкие круги населения, был стандартизирован по группе моряков, то «норма» может оказаться неоправданно высокой.

Надежность (Reliability) Отражает постоянство в оценочных измерениях. Хороший оценочный прием покажет одинаковые результаты в одинаковой ситуации (Barker, Pistrang & Elliott, 1994; Kline, 1993). Способ оценки получает высокую степень Ретестовой надежности, Одного из видов надежности, если достигаются те же результаты при проведении повторного теста с теми же людьми. Если в определенном тесте женщина указывает на то, что она много пьет, то тест, который будет проведен с ней через педелю, должен показать те же результаты. Чтобы измерить ретестовую надежность типа «тест — повторный тест», данные, полученные индивидами в двух случаях, приводятся в соответствие, и чем выше соотношение, тем больше надежность. (см. главу 1).

Надежность — измерение постоянства результатов теста или результатов исследования.

Валидность — точность результатов теста или исследовательской работы; то есть это тот предел, до которого тест или исследование в действительности измеряет или показывает то, что надо измерить и показать.

Метод тестирования показывает высокое Постоянство экспертной оценки, Другую разновидность надежности, если разные специалисты, проводящие оценку, независимо приходят к одинаковому решению, как записывать результаты оценки и как их интерпретировать. Тесты, построенные по схеме правильно — ложно, а также тесты с множественными выборами для ответа дают постоянные результаты независимо от того, кто производит оценку, но при проведении некоторых особых тестов требуется, чтобы оценивающий высказал свое мнение. Представьте, что по условиям теста требуется скопировать картину. Сделанная копия оценивается по точности выполнения. Одна и та же копия может быть по-разному оценена различными специалистами.

И, наконец, средство оценки должно показать высокую Валидность; Оно должно точно измерять то, что должно быть измерено (Barker et al., 1994; Kline, 1993). Представьте, что шкала измерения веса каждый раз показывает 12 фунтов, когда на весы кладется мешок с сахаром весом 10 фунтов. Хотя эта шкала надежна, т. к. ее показания постоянны, но она непригодна из-за того, что эти показания не точны. Некоторые средства оценки кажутся пригодными, потому что в этом есть смысл. Данный тип пригодности, который называют Очевидная валидность (Face Validity), Сам по себе не означает, что оцениваемая техника надежна. Тест на депрессию, например, может включать вопросы о том, часто ли пациент плачет.

Поскольку люди с депрессией действительно нередко плачут, подобные вопросы в тесте могли бы иметь очевидную валидность. Однако, оказывается, что некоторые люди много плачут вовсе не из-за депрессии, а некоторые больные с тяжелой формой депрессии могут вовсе не плакать. Таким образом, не следует пользоваться средством оценки до тех пор, пока оно не будет иметь высокой Прогностической или совпадающей валидности (Goodwin, 1995).

Прогностическая валидность — Возможность применяемого метода прогнозировать будущее поведение или характерные черты испытуемого. Допустим, что по условиям теста собирается информация о родителях учащихся начальной школы, их личные характеристики и отношение к курению. На основе таких данных мы могли бы попытаться выявить тех детей, которые начнут курить на младших курсах в колледже. Чтобы установить прогностическую валидность, следует применить этот текст на группе учащихся начальной школы, подождать, когда они станут студентами младших курсов, а затем проверить, кто из них действительно стал курильщиком.

<Ух! Эти судьи на университетских соревнованиях по нырянию по-разному оценили одного и того же ныряльщика. Низкая надежность оценки могла зависеть от дефектов процедуры оценки или от необъективности судей. Судьями были тренеры соперничающих команд.>

Совпадающая валидность — Это та степень, до которой соотносятся данные одного измерения с данными, полученными при применении других методик оценки. Например, показания пациентов в планируемом новом тесте для измерения тревоги должны в высшей степени соотноситься с другими их показаниями в тестах по тревоге или с их ответами, полученными во время клинических интервью.

<«Каждый из нас существует в центре своего личного мира, который никто кроме нас не может понять». — Карл Роджерс (Carl Rogers), 1951.>