Вероятности и неприятности. Математика повседневной жизни - Сергей Борисович Самойленко
Так правда ли, что дожди предпочитают выходные дни?
В начале главы мы говорили о том, что выходные и непогода совпадают чаще, чем хотелось бы. Попробуем завершить это исследование.
Каждый дождливый день можно рассматривать как наблюдение случайной величины — дня недели, подчиняющегося распределению Бернулли с вероятностью 1/7. Примем в качестве нулевой гипотезы предположение, что все дни недели одинаковы с точки зрения погоды и дождь может пойти в любой из них равновероятно. Выходных у нас два, итого получаем ожидаемую вероятность совпадения непогожего дня и выходного равной 2/7. Эта величина будет параметром распределения Бернулли. Как часто идет дождь? В разное время года по-разному, конечно, но в Петропавловске-Камчатском в среднем наблюдается девяносто дождливых или снежных дней в году. Так что доля дней с осадками составляет около 90/365 ≈ 1/4. Предположим на основании этого, что в течение некоторого периода (месяц, полгода, год) в среднем 1/4 дней окажутся непогожими. Посчитаем, какое количество дождливых выходных мы должны зарегистрировать, чтобы быть уверенными в том, что существует некоторая закономерность. Результаты приведены в таблице.
Период наблюдений Лето Год 5 лет Ожидаемое число наблюдений 23 90 456 Ожидаемое число положительных исходов 6 26 130 Значимое отклонение 4 9 19 Значимая доля непогожих в общем числе выходных дней 42% 33% 29%О чем говорят эти цифры? Если вам кажется, что который год подряд «лета не было», злой рок преследует ваши выходные, насылая на них дождь, это можно проверить и подтвердить. Однако в течение лета уличить злой рок можно, лишь если больше двух пятых выходных окажутся дождливыми. Нулевая же гипотеза предполагает, что только четверть выходных должна совпасть с ненастной погодой. За пять лет наблюдений уже можно надеяться подметить тонкие отклонения, выходящие за пределы 5 %, и при необходимости приступать к их объяснению.
Я воспользовался школьным дневником погоды, который велся с 2014 по 2018 год, и выяснил, что за эти пять лет было 459 ненастных дней, из которых 141 пришелся на выходные. Это действительно больше ожидаемого числа на 11 дней, но значимые отклонения начинаются с 19 дней, так что это, как мы говорили в детстве, «не считается».
Вот как выглядят ряд данных и гистограмма, показывающая распределение непогоды по дням недели. Горизонтальными линиями на ней отмечен интервал, в котором может наблюдаться случайное отклонение от равномерного распределения при том же объеме данных (рис. 4.4).
Рис. 4.4. Исходный ряд данных и распределение непогожих дней по дням недели, полученные за пять лет наблюдений
Видно, что, начиная с пятницы, действительно наблюдается увеличение числа дней с плохой погодой. Но для поиска причины роста предпосылок недостаточно: такой же результат можно получать, перебирая случайные числа. Вывод: за пять лет наблюдения за погодой я накопил почти две тысячи записей, но ничего нового о распределении погоды по дням недели не узнал.
При взгляде на записи в дневнике явно бросается в глаза, что непогода приходит не отдельными днями, а двух-трехдневными периодами или даже недельными циклонами.
Это как-то влияет на результат? Можно попробовать принять это наблюдение во внимание и предположить, что дожди идут в среднем по два дня (на самом деле 1,7 дня); тогда вероятность перекрыть выходные увеличивается до 3/7. Тогда ожидаемое число совпадений для пяти лет должно составить 195±21, или от 174 до 216 раз. Наблюденная величина 141 не входит в этот диапазон, и, значит, гипотезу об эффекте сдвоенных дней непогоды можно смело отвергать. Узнали ли мы что-то новое? Да: казалось бы, очевидная особенность процесса не влечет никакого эффекта. Об этом стоит поразмыслить, и мы этим займемся чуть позже. Но главный вывод таков: какие-то более тонкие эффекты рассматривать нет резона, поскольку наблюдения и, главное, их количество согласованно говорят в пользу самого простого объяснения.
Но недовольство у нас вызывает не пятилетняя и даже не годовая статистика: человеческая память не такая долгая. Обидно, когда дождливые дни выпадают на выходные три или четыре раза подряд! Как часто это может случаться? Особенно если вспомнить, что гадкая погода не приходит одна. Задачу можно сформулировать так: «Какова вероятность того, что n выходных подряд окажутся дождливыми?» В главе 6 мы близко познакомимся с так называемыми случайными процессами как с моделями случайных последовательностей событий во времени. Один из них, особенно важный и вместе с тем особенно простой, называется пуассоновским. Его характерная особенность — независимость момента наступления следующего события от предыдущих, уже произошедших, а также то, что временные интервалы между событиями подчиняются экспоненциальному распределению. Такая последовательность характеризуется одним параметром, который называют интенсивностью: числом событий, в среднем случающихся за единичный интервал времени. Разумно предположить, что непогожие дни образуют пуассоновский поток с интенсивностью 1/4. Это полностью соответствует нашему исходному положению, что в среднем