Вероятности и неприятности. Математика повседневной жизни - Сергей Борисович Самойленко
При использовании этих правил неизвестное σ можно оценить в первой серии экспериментов при относительно небольших значениях n, после чего уточнить необходимое число экспериментов. Зачастую, если у нас есть предположение о законе распределения, значение σ можно однозначно вывести из значения μ.
Если заменить в этих правилах 2σ на 3σ, степень уверенности вырастет до 99,7 %. Это очень сильное правило, которое в физических науках отделяет предположения от экспериментально установленного факта. В атомной физике критерий истинности — еще более сильное правило 5σ.
Для нас полезно будет рассмотреть приложение этих правил к распределению Бернулли с параметром, которое описывает случайную величину, принимающую ровно два значения, условно «успех» и «неудача», с вероятностью успеха p и неудачи 1 — p. В этом случае μ = p и σ = p(1 — p), так что для необходимого числа экспериментов и доверительного интервала получим такие выражения:
В главе 2 мы упомянули результат, опубликованный Перси Диаконисом и говорящий о принципиальной, хоть и небольшой, нечестности процесса подбрасывания монеты. Напомню: вероятность того, что она выпадет той же стороной, которая была сверху при подбрасывании, оказалась равна 51 %. Насколько велико такое отклонение? Можно ли его заметить в экспериментах?
Примем скучную нулевую гипотезу: монета, подбрасываемая человеком, выпадает совершенно случайно, и результат эксперимента независим от ее начального положения. Что нам нужно для того, чтобы опровергнуть это предположение? Нас интересует точность до второго знака после запятой, которой соответствует абсолютная погрешность, равная 0,005, или относительная: 0,005 / 0,5 = 0,01. Отсюда имеем оценку для n: (2 / 0,01)2 = 40 000. Выделив по секунде на бросок и регистрацию результата, мы обречем себя на полсуток подбрасывания монеты без единого перерыва. Это нижняя оценка; если же мы захотим увеличить абсолютную точность на порядок, нам потребуется в сто раз больше испытаний: либо задействовать сто экспериментаторов, либо три месяца непрерывно бросать монету.
На рисунке показаны результаты 40 000 испытаний для двух «монеток»: идеальной (с 50 %-й вероятностью обоих исходов) и слегка неидеальной (в которой выпадение орла имеет вероятность 55 %), проводимых с целью вычислить вероятность выпадения орла. Слово «монетка» взято в кавычки, потому что на самом деле использовался генератор случайных чисел, подчиняющихся распределению Бернулли. Видно, что только после 2000 испытаний «облака» наблюдаемых значений среднего начинают отчетливо разделяться. Для простоты можно считать, что монетка — неплохой генератор случайного выбора из двух равновероятных вариантов (рис. 4.1).
Рис. 4.1. Эксперименты с подбрасыванием идеальной и слегка неидеальной монетки с целью зафиксировать ее неидеальность
Правило 2σ для распределения Бернулли можно использовать в определении доверительного интервала при построении гистограмм. По сути, каждый столбик гистограммы представляет случайную величину с двумя значениями «попал» — «не попал», где вероятность попадания в выделенный интервал соответствует моделируемой функции вероятности. В качестве демонстрации сгенерируем множество выборок для трех распределений: равномерного, геометрического и нормального, — после чего сравним оценки разброса наблюдаемых данных с наблюдаемым разбросом. И здесь мы вновь видим отголоски центральной предельной теоремы, проявляющиеся в том, что распределение данных вокруг средних значений в гистограммах близко к нормальному. Однако вблизи нуля характер разброса изменяется, распределение точек становится близким к другому, часто встречающемуся экспоненциальному распределению. Этот пример хорошо показывает, почему я говорил, что в статистике мы имеем дело со случайными значениями параметров случайной величины.
Важно понимать, что правила 2σ и даже 3σ не избавляют нас от ошибок. Они не гарантируют истинности утверждения, это не доказательства. Статистика ограничивает степень недоверия к гипотезе, не более того (рис. 4.2).
Рис. 4.2. Пример, показывающий соотношение оценки разброса, которая проведена по правилу 2σ, и наблюдаемого разброса для трех случайных величин. Здесь толстой линией показаны истинные распределения, а тонкими — оценка для наблюдаемых отклонений
Блестящий математик и автор прекрасного курса по теории вероятностей Джан-Карло Рота на своих лекциях в Массачусетском технологическом институте приводил такой пример. Представьте себе научный журнал, редакция которого приняла волевое решение: публиковать исключительно статьи с положительными результатами, которые удовлетворяют правилу 2σ или строже. При этом в редакционной колонке указано, что читатели могут быть уверены: с вероятностью 95 % они не встретят на страницах этого журнала неверный результат! Увы, это утверждение легко опровергнуть теми же рассуждениями, что привели нас к вопиющей несправедливости при тестировании водителей на алкоголь. Пусть 1000 исследователей подвергнут опыту 1000 гипотез, из которых верна лишь какая-то часть, скажем 10 %. Исходя из смысла проверки гипотез, можно ожидать, что 900 × 0,05 = 45 из неверных гипотез ошибочно не будут отвергнуты и войдут в журнал — наряду с 900 × 0,95 = 95 верными результатами. Итого из 140 результатов добрая треть окажется неверной!
Этот пример прекрасно демонстрирует наш отечественный закон подлости, который не вошел пока в хрестоматии мерфологии и сформулирован бывшим премьер-министром России Виктором Черномырдиным[21]:
Хотели как лучше, а получилось как всегда.Легко получить общую оценку доли неверных результатов, которые войдут в выпуски журнала, при предположении, что доля верных гипотез равна 0 < α < 1, а вероятность принятия ошибочной гипотезы равна p:
Области, ограничивающие долю заведомо неверных результатов, которые смогут быть опубликованы в журнале, показаны на рис. 4.3.
Рис. 4.3. Оценка доли публикаций, содержащих заведомо неверные результаты, при принятии различных критериев проверки гипотез. Видно, что принимать гипотезы по правилу 2σ рискованно, тогда как критерий 4σ уже может считаться весьма сильным
Конечно, мы не знаем этого α и не узнаем никогда, но оно заведомо меньше единицы, а значит, в любом случае утверждение из редакционной колонки нельзя принимать всерьез.
Можно ограничить себя жесткими рамками критерия 4σ, но он требует очень большого числа испытаний. Значит, надо увеличивать долю верных гипотез во множестве возможных предположений. На это и направлены стандартные подходы научного метода познания — логическая непротиворечивость