Скотт Миллер - Психология развития: методы исследования
В некоторых случаях параметрические критерии мощнее аналогичных непараметрических критериев. По сути, это объясняется тем, что при расчете параметрического критерия используется больше информации о данных. Многие непараметрические критерии, например, ограничены порядковыми характеристиками данных, в частности, рангом показателей в сравниваемых выборках. При расчете f-критерия, напротив, задействуются фактические показатели и абсолютная разница между ними; поэтому иногда с его помощью выявляются различия, которые не смогли выявить непараметрические критерии. Следует добавить, что разница в мощности, как правило, невелика и обнаруживается преимущественно при изучений больших выборок. Кроме того, она не является чем-то неизбежным. Во многих ситуациях параметрические и непараметрические критерии обладают одинаковой мощностью. Если предположения, лежащие в основе параметрического критерия, серьезно нарушаются, непараметрические аналоги могут оказаться более мощными (см. Blair & Higgins, 1980).
Сказанное о параметрических предположениях подводит нас к понятию устойчивости. Устойчивость характеризует безопасность отклонений от допущений, лежащих в основе некоего критерия. Устойчивый критерий сравнительно нечувствителен к таким нарушениям, то есть, как правило, он позволяет сделать точные выводы о значимости даже тогда, когда допущения не соответствуют действительности. И t и f-критерии достаточно устойчивы. Именно поэтому в литературе можно часто встретить указание на их использование даже для данных, не отвечающих рассмотренным выше требованиям — данным рейтинговых шкал, к примеру, или данных, распределение которых заметно отличается от нормального, или при наличии неравной дисперсии у сравниваемых групп. Устойчивость не означает, что исследователь может, не задумываясь, применять параметрические критерии к любому типу данных; однако не следует и слишком поспешно отказываться от параметрических критериев лишь потому, что некое допущение, лежащее в их основе, нарушается. Возможно, стоит посоветоваться со специалистом: применим ли выбранный параметрический показатель к имеющимся данным?
План исследования
Мы рассмотрели две детерминанты выбора статистического показателя: уровень измерения и распределение данных. Третий фактор, который следует учитывать, — это план исследования.
Имеют значение разные аспекты плана. Один из аспектов — количество уровней независимой переменной. В нашем примере с агрессией детей дошкольного возраста этот фактор довольно прост: две возрастные группы и два пола. Поэтому здесь достаточно легко при сравнении двух уровней каждой переменной можно
применить f-критерий. Предположим, однако, что мы усложняем ситуацию, добавляя дополнительные уровни. Поскольку с полом представить это себе довольно трудно, включим новые возрастные группы. Допустим, вместо двух у нас их шесть. Что происходит тогда с нашим /-критерием?
Наиболее очевидным следствием является то, что возникает необходимость подсчитать значительно большее количество критериев. При наличии шести возрастных групп возможно 15 парных сравнений. Поэтому, чтобы что-то обнаружить, придется подсчитать значение 15 t-критериев. Рассчитывать 15 показателей и указать их все в отчете, естественно, довольно неудобно. Однако более серьезный довод против этого имеет отношение к уровню вероятности. Нам нужно, чтобы этот уровень оставался неизменным, какой бы рубеж для значимости мы ни выбрали — к примеру, традиционные 0,05. Однако наличие множества Сделает интерпретацию уровня вероятности весьма затруднительной. Получив 15 значений, каждое из которых находится на уровне 0,05, мы получаем вероятность того, что значимость по крайней мере одного из этих показателей носит случайный характер, равную 0,54.' Как же тогда интерпретировать любой статистически значимый результат?
Проблема, в действительности, даже еще сложнее. Вероятность 0,54 основывается на предположении, что все 15 показателей независимы друг от друга. Однако, как правило, это не так; они взаимосвязаны в том смысле, что одни и те же данные используются для разных сравнений. Это, фактически, относится к описанному выше случаю сравнения между возрастными группами: каждая из шести возрастных групп вносит свои данные — одни и те же — в расчеты 5 из 15 критериев. При наличии такого рода взаимозависимости критериев определить точный уровень вероятности для каждого критерия невозможно. Исследователь может подсчитать значение какого-то t и выявить значимость на уровне 0,05; однако вполне может оказаться, что истинный уровень значимости совершенно иной.
Есть и еще одна проблема, связанная с множественностью t. Допустим, что мы усложнили наше исследование не добавлением уровнейяезависимой переменной, а введением дополнительных независимых переменных. Помимо возраста и пола как детерминант агрессии мы могли бы изучать эффект обстановки игровой комнаты, разницу между поведением в группе и на улице, влияние показа половине детей агрессивного мультика и т. д. Ясно, что чем больше независимых переменных, тем большее количество t нужно подсчитать. Но проблема состоит не только в избытке показателей L При изучении множественных переменных всегда существует вероятность зависимости эффекта одной переменной от уровня другой. Иными словами, возможно взаимодействие переменных. Эффекты взаимодействия необходимо выявить, но это довольно трудно сделать, используя только г-критерий.
Чаще всего в качестве альтернативы использования t-критерия проводят дисперсионный анализ (ДА). По существу, ДА расширяет возможности г-критерия на те случаи, когда имеется более двух средних. Метод расчета здесь иной и более
Возможно, проще всего увидеть то, откуда появляется такая вероятность, это задаться вопросом, ка-коны шансы не получить случпнный результат. При применении олной статистической проверки вероятность избежать такой ошибки составляет 0,95. При проведении диух отдельных проверок вероятность избежать ошибки определяется значением двух значений вероятности, то есть 0,952. При проведении 15 проверок эта вероятность составит 0,9515 или 0T4G. Поэтому кероятность того, что мы получим хотя бы один случайный значимый результат, равна 1 - 0,46.
сложный, чем метод расчета t, и в этой книге мы даже не будем пытаться его описать. Однако логика, лежащая в основе обоих приемов, одинакова: мы проверяем значимость, определяя, насколько первичная дисперсия, связанная со сравниваемыми группами, превышает вторичную дисперсию или дисперсию ошибки. Статистический показатель, являющийся результатом этой проверки, обозначается буквой F, и значимость его, как и значимость t, устанавливается по стандартным таблицам, которые можно найти в любом учебнике по статистике.
Рассмотрим, как можно было бы применить ДА в исследовании агрессии. У нас две независимые переменные: возраст и пол. Чтобы более наглядно продемонстрировать преимущества ДА перед использованием t, предположим, что в действительности, переменная возраста имеет б уровней, а не 2, как указанно в табл. 7.1. Применение ДА дает показатель F д.ля каждой из независимых переменных, или значения главных эффектов. Если для пола F значим, тогда в отношении этой переменной наши действия завершены; поскольку переменная пола имеет только два уровня, мы можем просто посмотреть на средние значения, чтобы определить, в чем состоит эффект. Значимый главный эффект для возраста — более сложный случай. Здесь показатель F основан на одновременном сравнении всех шести возрастных групп, а установление значимости подразумевает, что значим результат, по меньшей мере, одного парного сравнения. Тогда нам нужно использовать дополнительные критерии с тем, чтобы определить, результат какого из сравнений (или результаты каких сравнений) обладает значимостью. Эти дополнительные критерии сходны с f-критерием, однако их подсчет несколько проще и производится, только если общий показатель Освидетельствует о наличии значимого эффекта.
Результатом ДА является также третий показатель F — для взаимодействия между возрастом и иолом. В целом, ДА дает столько F, сколько в исследовании существует возможных комбинаций независимых переменных. Если, к примеру, в исследовании 3 независимые переменные, результатом ДА будет четыре F, указывающих на взаимодействие: по одному на каждое парное сочетание и одно для тройного сочетания. Как и в случае со значимым главным эффектом, значимость Взаимодействий можно проверять при помощи специальных критериев для выяснения основы эффекта взаимодействия.
Для выбора статистического показателя важен еще один аспект исследовательского плана. До этого момента мы говорили в основном о межсубъектных планах — то есть случаях, когда данные каждого испытуемого попадают только в одну категорию сравниваемых условии или групп. Но, как мы знаем из главы 3, многие независимые переменные изучаются при помощи внутрисубъектных планов, в которых данные каждого испытуемого попадают в категорию данных по каждому из экспериментальных условий. Что происходит со статистическими показателями, когда каждый испытуемый представлен в каждом из условий?