Макс Базерман - Искусство замечать. Секреты наблюдательности истинных лидеров
В корпоративном мире много плохих парней, намеренно преступавших закон. Среди них такие, как Бернард Мэдофф, Джеффри Скиллинг, Кеннет Лэй и Эндрю Фастоу. Но я искренне считаю, что более серьезный вред нанесли многие из нас – те, что ненамеренно совершали нечестные действия, наблюдали, как другие люди преступают нормы морали, и молчали об этом. СМИ привлекли внимание к истории падения Марка Хаузера и Дидерика Стапеля, однако в намеренной подтасовке данных было замечено лишь небольшое количество психологов. Но если подобное мошенничество происходит нечасто, мы не должны успокаиваться на том, что наши собственные работы полностью честны. В научных кругах рождается гораздо более важная история: ученые с самыми благими намерениями подрывают репутацию своей работы и, более того, всю научную область, не понимая, что они что-то делают не так.
Как представители общественных наук, проводящие количественные исследования, так и рецензируемые журналы используют определенный критерий, показывающий, является ли результат статистически значимым. Этот критерий заключается в том, что уровень значимости[7] должен оказаться меньше 0,05. Другими словами, вероятность того, что данный результат получился случайно, будет меньше 5 %. Ученые используют множество различных статистических методов проверки, но критерий р < 0,05 фигурирует в большей их части. Исследователи понимают, что результаты эксперимента должны удовлетворять критерию р < 0,05 – иначе не видать им публикации в ведущих научных журналах. Однако можно увеличить свои шансы на то, что уровень значимости будет меньше 0,05, в частности использовать так называемую степень свободы [9].
Представим себе, что у исследователя есть гипотеза, будто мужчины в целом склонны инвестировать более рискованно, чем женщины [10]. Контроль статистической значимости оправдан, если исследователь выбирает один способ проверки своей гипотезы и заранее решает, сколько мужчин и женщин будут участвовать в эксперименте. И вот вы приводите группу людей в лабораторию и попросите их принять инвестиционное решение: куда вкладывать деньги, в акции или облигации. Обнаружив, что мужчины более склонны выбирать акции, вы получите доказательства в пользу своей гипотезы. Но что если вы предложите участникам исследования акции и облигации с разной степенью риска? Как вы проверите следующее:
1) что мужчины чаще выбирают акции, а женщины – облигации;
2) что мужчины предпочитают акции с более высокой степенью риска, чем женщины;
3) что мужчины предпочитают облигации с более высокой степенью риска, чем женщины;
4) что мужчины в целом готовы пойти на более высокий уровень риска в своих инвестициях, по результатам испытаний тремя различными методами агрегирования, разработанными представителями науки о финансах (4а, 4б и 4в).
Теперь представьте себе, что в вашем эксперименте участвуют 15 мужчин и 15 женщин. Результаты склоняются в предсказанном вами направлении, однако они не соответствуют уровню значимости р < 0,05. Вы вновь проводите эксперимент с другими 15 женщинами и 15 мужчинами. Теперь результаты минимально значимы (уровень значимости колеблется между 0,1 и 0,05), поэтому вы проводите эксперимент еще раз – теперь с 20 мужчинами и 20 женщинами. Наконец, объединив результаты трех экспериментов, вы видите, что мужчины значительно чаще, чем женщины, выбирают инвестиции с большей степенью риска.
Основная идея этого гипотетического примера заключается в том, что исследователь может использовать множество разных выводов для проверки одной идеи; на языке ученых, он может собрать множество зависимых переменных. Если результаты полученного им массива данных близки к уровню значимости, ничто не мешает ему собрать дополнительную информацию – то есть несколько раз попытаться добиться, чтобы результат удовлетворял критерию р < 0,05. Кроме того, часть данных он может исключить (странные ответы, предполагающие, что участники не поняли задание), после того как вся информация собрана, и он видит, что это положительно повлияет на результаты.
В 2011 году исследователи-психологи Джо Симмонс, Лейф Нельсон и Ури Симонсон опубликовали великолепную работу, в которой показали, что использование четырех степеней свободы и доля креативности почти наверняка приведут любые убедительные доказательства к вероятности р < 0,05, даже если проверяемая гипотеза неверна [11]. Даже если для проверки своей идеи множеством разных способов исследователь использует случайные данные, его шанс достичь желаемого эффекта значительно превышает 5 % – и он может затем опубликовать тот вариант, который дал нужные результаты. Симмонс с коллегами демонстрируют, что очень небольшое количество степеней свободы позволяет поднять вероятность получения значимого результата выше 50 % даже с использованием случайных данных. Другими словами, их исследование показывает, что более чем возможно работать в рамках установленных правил и прийти к желаемым, но неверным результатам.
Цитируемые журналы косвенно поддерживают недостоверные методы и подходы, которые встречаются в исследованиях. Они не требуют, чтобы ученые описывали полученные данные и эксперименты полностью, якобы потому, что это займет слишком много места. А чем больше субъективность в данной области, тем выше вероятность использования спорных методов исследований. Это означает, что в общественных науках они встречаются особенно часто.
В своей работе на ту же тему Лесли Джон, Джордж Лоуэнштейн и Дражен Прелеч провели опрос среди исследователей-психологов с использованием сложной процедуры, заставляющей людей отвечать честно. Они задавали вопросы об использовании ряда недостоверных исследовательских методов и подходов [12]. Их интересовало вот что: 1) замалчивание части зависимых величин, полученных в ходе исследования (результатов, которые были оценены); 2) принятие решения о том, собирать ли дополнительные данные, после проверки значимости полученных результатов; 3) замалчивание всех условий или вариантов исследования; 4) прекращение сбора данных раньше, чем предполагалось, поскольку желаемый результат уже получен; 5) округление уровня значимости в желаемую сторону (например, округление 0,054 до 0,05); 6) выборочная публикация результатов экспериментов, которые «сработали», и умолчание о том, что не получилось; 7) принятие решения об исключении данных после оценки влияния этого шага на результаты; 8) сообщение о том, что неожиданное открытие предполагалось с самого начала; 9) лживое заявление, будто на результаты не влияют демографические переменные (такие как пол), и 10) фальсификация данных. Последний пункт – это подтасовка, в которой были замешаны Хаузер и Стапель. Мы же поговорим о девяти других – их считают менее вредоносными.