Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке - Стюарт Ричи
Так или иначе, Фишер изначально предложил установить “статистически значимый” порог на уровне 0,05 – это значит, что мы должны мириться не более чем с пятипроцентной вероятностью ложноположительного результата в рамках одного испытания (обратите внимание: это означает, что в нашем исследовании, посвященном росту, с p-значением 0,03 результат статистически значимый).
Уровень 0,05 выбран довольно-таки произвольно. Похожим образом на великолепном шотландском сайте taps-aff.co.uk, где отслеживается погода по всей стране, любая область с температурой, превышающей 17 градусов Цельсия (около 63 градусов по Фаренгейту), автоматически объявляется зоной “майки долой”[313] – имеется в виду, что там достаточно тепло, чтобы мужчины имели полное право разгуливать на улице с голым торсом[314]. Семнадцать градусов – вполне разумный порог, но произвольный: пожалуй, некоторые мужчины и не подумают обнажаться, пока температура не поднимется до 20 градусов, а самые закаленные, возможно, начнут скидывать с себя одежду уже при 15 градусах. Поэтому Фишер позднее заметил, что каким-то исследователям, наверное, захочется установить критерий значимости иначе, в зависимости от предмета изучения[315]. Так, порог в “пять сигм”, активно обсуждавшийся физиками ЦЕРН после открытия бозона Хиггса в 2012 году, был просто вычурным способом говорить о крайне низком p-значении, использовавшемся для столь важного результата[316]: “пять сигм” соответствуют p-значению, примерно равному 0,0000003. Вбухав в строительство Большого адронного коллайдера колоссальные ресурсы, физики действительно не хотели обмануться шумом в своих числовых данных, поэтому установили очень высокий порог, который доказательство должно было преодолеть.
Если же оставить в стороне исключения вроде бозона Хиггса, порог 0,05 по общему соглашению, традиции и инерции остается на сегодня самым широко используемым критерием. Он заставляет ученых лихорадочно рыться в своих статистических таблицах, отыскивая p-значения ниже 0,05, чтобы иметь право сказать: результаты статистически значимы. Легко позабыть о произвольности этого выбора. Ричард Докинз сетовал на “дискретное мышление” – склонность человека мыслить отдельными, строго определенными категориями, а не беспорядочными, размытыми и неоднозначными, которые и характеризуют наш реальный мир[317]. В качестве примера можно привести споры об абортах, когда внимание часто заостряется на том, в какой момент эмбрион или плод становится “личностью”, как будто тут вообще возможно провести четкую границу для принятия решения. Аналогично в эволюционной биологии, собственной области интересов Докинза, пытаться указать точный момент, когда один вид эволюционирует в другой, – дело безнадежное, как бы нам того ни хотелось. То же и с p-значением: порог отсечения 0,05 для статистической значимости подталкивает исследователей к тому, чтобы считать результаты, преодолевающие эту границу, так или иначе “правдивыми”, а остальные – безнадежными “нулевыми”. Однако значение 0,05 – это такая же условность, как и “правило 17 градусов” для оголения торса или, если говорить чуть серьезнее, как общественное заключение, что человек официально становится взрослым точно в определенный день рождения.
Прежде чем пуститься в этот несколько затруднительный (но необходимый) статистический обход, мы познакомились с понятием “публикационное смещение” – тенденцией ученых публиковать только положительные результаты и скрывать отрицательные. Теперь мы знаем, как они обычно принимают решение: “значимые” результаты, преодолевающие сакральное пороговое p-значение в 0,05, радостно подаются в журналы, тогда как остальные складываются в “картотечный ящик”. Отождествление произвольно заданного Фишером статистического порога и “правдивости” или важности результата пагубно повлияло на научную летопись.
Иногда мы замечаем характерные следы публикационного смещения, если рассматриваем весь сегмент научной литературы в целом. Такой широкий взгляд зачастую принимает форму метаанализа, в ходе которого за счет объединения результатов множества исследований, посвященных какой-то одной теме, можно вычислить общий эффект (иногда его называют, пожалуй, искушая судьбу, “истинным” эффектом). Это может быть, скажем, общее влияние вакцины на снижение смертности от какой-то болезни или общая связь между изменением климата и урожайностью[318].
Подбирая релевантные исследования, специалисты по метаанализу уделяют большое внимание двум показателям. Первый – величина эффекта. Для двух наших примеров это будет выглядеть так: вакцина снижает смертность лишь на несколько случаев в год (маленький эффект) или спасает ежегодно тысячи жизней (значительный эффект)? Изменение климата оказывает небольшое, приемлемое влияние на пищевую культуру или же разрушительное? Мы знаем, что из-за ошибки измерения и ошибки выборки различные исследования могут давать очень разные оценки для величины эффекта, поэтому неблагоразумно было бы полагаться на оценку, полученную лишь в одной работе. Поскольку обычно по какому-либо вопросу лучше раздобыть больше доказательств (и поскольку случайные флуктуации, вызываемые ошибками, для разных выборок должны нивелировать друг друга), общая величина эффекта, вычисляемая в ходе метаанализа, считается, как правило, более надежной, чем оценки из отдельных исследований.
При метаанализе общий эффект вычисляется не просто усреднением всех значений для величины эффекта, полученных во включенных туда исследованиях. Учитывается еще и второй показатель, которому специалисты по метаанализу уделяют особое внимание: размер выборки. При прочих равных условиях ожидается, что крупные исследования, раз они содержат больше данных, ближе подбираются к “истинному” эффекту (среднему для всей популяции). Иными словами, наилучшая оценка истинного эффекта, полученная в масштабных работах, будет, как правило, точнее, чем оценка из работ небольших[319]. Для нашего исследования жителей Шотландии с выборкой из десяти мужчин и десяти женщин легко представить себе, как мы случайно могли сделать нерепрезентативную выборку из нетипично низких мужчин или нетипично высоких женщин – и в итоге прийти к неверному выводу. Но вообразите, что мы сделали выборку из тысячи мужчин и тысячи женщин – тогда риск по случайности отобрать тысячу человек с необычной характеристикой, очевидно, гораздо меньше, чем при отборе лишь десяти. Это общее соображение справедливо для большинства ситуаций: в небольших исследованиях, которые представляют собой более ограниченные срезы реальности и сильнее подвержены влиянию ошибки выборки,