Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке - Стюарт Ричи
Если исследования в этих областях имеют столь малую статистическую мощность, почему же тогда во многих из них все-таки обнаруживаются какие-то эффекты? Первая причина заключается в том, что они, возможно, подвергнуты p-хакингу: ученые не обнаружили эффекта при своем первоначальном анализе, поэтому подошли к полученным числам творчески[459]. Но даже и без p-хакинга в исследованиях с недостаточной статистической мощностью все равно время от времени обнаруживаются какие-нибудь эффекты, и происходит это по тревожной, хотя и немного мудреной, причине. Вспомните, как мы обсуждали ошибку выборки. Представьте, что средний эффект нашей таблетки от головной боли в популяции действительно составляет полбалла по шкале от 1 до 5. Иногда мы можем взять выборку, для которой эффект по случайности ниже среднего, и все будет выглядеть так, будто эффекта нет и вовсе. А иногда попадется выборка, где эффект выше среднего, поскольку так получилось, что в нее вошли только те люди, которым лекарство помогало сильно. В исследовании с низкой статистической мощностью мы можем получить положительный результат – значимое p-значение – только в том случае, если выборка демонстрирует необычно и обманчиво большой эффект.
Рискуя прозвучать тавтологично, сформулирую так: поскольку исследованиям с малой статистической мощностью хватает ее только для обнаружения больших эффектов, это единственные эффекты, которые там проявляются. Вот куда приводит нас логика. Если вы обнаружили эффект в исследовании с недостаточной статистической мощностью, он, вероятно, преувеличен[460]. Затем вступает в силу публикационное смещение: поскольку большие эффекты впечатляют, статью о них, по всей вероятности, в итоге опубликуют. Поэтому-то, когда читаешь научную литературу, кажется, что так много крошечных исследований сообщают о больших эффектах: как мы видели на воронкообразных диаграммах в предыдущей главе, в журналах часто упущены все мелкие исследования, которые из-за того, что в них не обнаружилось ничего “интересного”, были отброшены.
Эта ситуация создает проблемы для последующих исследований. Ученые разбирают опубликованную литературу, чтобы понять, какой величины эффекта ожидать в собственных экспериментах. Если в первоначальном небольшом исследовании величина эффекта преувеличивается, ученые для последующего изучения станут использовать маленькие выборки, полагая, что статистической мощности будет достаточно. Однако заявленный эффект, если он вообще существует, в действительности, вероятно, гораздо меньше и поэтому неуловим в экспериментах с малыми выборками[461]. Таким образом, исследования с недостаточной статистической мощностью запускают цепную реакцию: раз за разом впустую тратятся время, усилия и ресурсы в погоне за эффектом, который подобен гигантской тени, что отбрасывает мотылек, сидящий на лампочке.
Использование малых выборок не было бы столь пагубно, живи мы в мире, где и правда на каждом шагу встречались бы большие эффекты. Но обычно большие эффекты связаны с весьма очевидными факторами – вроде разницы в росте между мужчинами и женщинами, как в нашем примере. А большинство эффектов куда менее очевидны. В одном исследовании, посвященном клиническим испытаниям, обнаружилось, что медицинский эффект обычно бывает от малого до среднего. Грубо говоря, если в испытании участвовало сто человек, принимающих лекарство, и сто – плацебо и двадцати участникам стало лучше на плацебо, то человек на шесть больше (то есть около двадцати шести) почувствуют улучшение на лекарстве[462]. Даже для хорошо зарекомендовавших себя препаратов, таких как нейролептики при шизофрении, бензодиазепины при бессоннице и кортикостероиды при астме, эффекты все равно по величине лишь умеренные: в этих трех случаях плюс восемнадцати пациентам (итого получится около тридцати восьми) из лечебной группы станет лучше[463]. В исследованиях по психологии средний эффект тоже весьма скромен, и наверняка похожая ситуация наблюдается во многих других областях[464].
Когда речь идет об изучении таких необычайно сложных систем, как тело или мозг либо экосистема, экономика или общество, ученым редко удается найти единственный фактор, который оказывал бы огромное влияние на какой-то другой. Наоборот, большинство интересующих нас психологических, социальных и даже медицинских явлений состоят из множества мелких эффектов, каждый из которых играет свою маленькую роль. Например, если экономисты захотят объяснить, почему разные люди в их выборке имеют разный доход, им нужно будет учитывать, где живут участники, их происхождение, способности, личные качества и образование, налоговую систему их страны и ее изменения со временем и еще целую кучу других факторов и событий, которые на всех этапах жизни участников могли подтолкнуть их судьбу в том или ином направлении. Тот факт, что малые эффекты встречаются гораздо чаще и в совокупности оказывают влияние гораздо более значительное, чем эффекты большие, делает исследования с недостаточной статистической мощностью, которые рисуют наш мир полным этих больших эффектов, еще сильнее вводящими в заблуждение.
Один из самых конфузных примеров того, как исследования с низкой статистической мощностью сбивают ученых с пути, – это оживление вокруг так называемых генов-кандидатов. За последние лет десять генетики выучили болезненный урок об опасности исследований с низкой статистической мощностью. Давно было известно, в основном благодаря работам на близнецах, что рост и вес людей, результаты когнитивных тестов (IQ, коэффициент интеллекта), вероятность развития различных заболеваний и психических расстройств, а также многие другие характеристики зависят от генетических особенностей[465]. Однако только лет двадцать назад для генетиков стала широко доступна технология, с помощью которой можно было попытаться точно определить, какие именно участки ДНК с какими признаками связаны. Первые попытки были предприняты в исследованиях, где ученые выделяли и изучали конкретный ген – “кандидат” – в надежде установить, могут ли изменения в нем вызывать изменение соответствующего признака.
Поначалу казалось, что