Вероятности и неприятности. Математика повседневной жизни - Сергей Борисович Самойленко
Теперь еще раз взгляните на эпиграф к этой главе и осознайте, что статистика, которую так пренебрежительно называют третьим видом лжи, — единственное, чем располагают все естественные науки. Это ли не главный закон подлости мироздания! Все физические и наблюдаемые нами экономические законы строятся на математических моделях и их свойствах, но проверяются они статистическими методами в ходе измерений и наблюдений. В повседневности наш разум делает обобщения и подмечает закономерности, выделяет и распознаёт повторяющиеся образы. Это, наверное, лучшее, что умеет человеческий мозг. Именно этому в наши дни учат искусственный интеллект. Но разум экономит силы и склонен делать выводы по единичным наблюдениям, не сильно беспокоясь о точности или обоснованности этих заключений. По этому поводу есть замечательное самосогласованное утверждение из книги Стивена Браста «Исола»[17]: «Все делают общие выводы из одного примера. По крайней мере, я делаю именно так». И пока речь идет об искусстве, характере домашних любимцев или обсуждении политики, об этом можно сильно не беспокоиться. Однако при строительстве самолета, организации диспетчерской службы аэропорта или тестировании нового лекарства уже нельзя сослаться на то, что «мне так кажется», «интуиция подсказывает» и «в жизни всякое бывает». Тут приходится ограничивать работу своего разума рамками строгих математических методов.
Эта книга не учебник, мы не будем детально исследовать статистические методы и ограничимся лишь одной из техник проверки гипотез. Но мне хотелось бы показать ход рассуждений и форму результатов, характерных для этой области знания. И, возможно, кому-то из читателей, к примеру будущему студенту, не только станет понятно, зачем его мучают матстатистикой, всеми этими QQ-диаграммами, t- и F-распределениями, но и придет в голову другой важный вопрос: а как вообще возможно знать что-нибудь наверняка о случайном явлении? И что именно мы узнаём, используя статистические данные?
Как возможность ошибиться делает науку наукой
Математическая статистика использует методы теории вероятностей, а ее столпы — закон больших чисел и центральная предельная теорема.
Естественное предположение, что наблюдаемые данные отражают реальное неизвестное распределение, оказывается верным. Например, гистограмма наблюдаемых величин приближается к истинной плотности распределения, если число наблюдений стремится к бесконечности.
Как закон больших чисел, так и центральная предельная теорема — не одно утверждение. Каждый из этих результатов представляет собой несколько разных теорем, охватывающих широкий спектр задач и условий. Мы познакомимся с их упрощенными формулировками, дающими хорошее представление об этих важных результатах.
Закон больших чисел — несколько разных теорем, утверждающих, что среднее значение наблюдений случайной величины при определенных условиях в том или ином смысле стремится к неизвестному математическому ожиданию этой величины. В простейшем случае он выглядит так. Пусть X1, X2, …, Xn — независимые одинаково распределенные случайные величины с математическим ожиданием a, Sn = X1 + X2 +…+ Xn. Тогда
Иными словами, среднее значение наблюдений стремится к математическому ожиданию. В частности, из закона больших чисел вытекает, что частота наблюдений какого-либо события стремится к вероятности этого события, то есть он прочно связывает «бытовое» частотное толкование вероятности и теоретическое как меры на вероятностном пространстве.
Центральная предельная теорема говорит о том, что при определенных условиях сумма независимых или слабо зависимых случайных величин, каждая из которых вносит небольшой вклад в общую сумму, имеет распределение, близкое к нормальному (гауссовскому). Теорема получила свое название за универсальность и важность, поскольку ее условия часто реализуются на практике. Например, многие биологические характеристики (рост человека или размах рук) подчиняются нормальному распределению, поскольку на них влияет множество факторов (скажем, действует много разных генов), вносящих по отдельности небольшой вклад. В простейшем случае теорема выглядит так.
Пусть опять X1, X2, …, Xn — независимые одинаково распределенные случайные величины с математическим ожиданием a и дисперсией σ2. Тогда
Здесь N(0,1) обозначает стандартное нормальное распределение со средним 0 и дисперсией 1.
Иными словами, при больших n сумма Sn близка к гауссовской случайной величине с математическим ожиданием (средним значением) na и дисперсией nσ2.
Эту теорему обычно доказывают, применяя методы функционального анализа. Но мы увидим позже, что ее можно понять и даже расширить, введя понятие энтропии как меры вероятности состояния системы: нормальное распределение имеет наибольшую энтропию при наименьшем числе ограничений. В этом смысле оно оптимально при описании неизвестной случайной величины либо случайной величины, являющейся суммой многих других величин, распределение которых тоже неизвестно.
Эти два закона лежат в основе количественных оценок достоверности наших знаний, основанных на наблюдениях. Здесь речь о статистическом подтверждении или опровержении предположения, которое можно сделать из каких-то общих оснований, и математической модели. Это может показаться странным, но сама по себе статистика не производит новых знаний. Набор фактов превращается в знание лишь после построения связей между фактами, образующих определенную структуру. Именно эти структуры и связи позволяют делать предсказания и выдвигать общие предположения, которые основаны на чем-то, выходящем за пределы статистики. Они называются гипотезами. Самое время вспомнить один из законов мерфологии — постулат Персига:
Число разумных гипотез, объясняющих любое данное явление, бесконечно.Задача математической статистики — ограничить это бесконечное число, а вернее, свести все гипотезы к одной, причем вовсе не обязательно верной. Итак, у нас есть случайная величина X, распределение P которой неизвестно (иногда совсем, иногда частично). Гипотеза — любое предположение о P. Простая гипотеза — предположение, что P — какое-то конкретное известное распределение. Сложная гипотеза — предположение, что P принадлежит целому классу распределений. Как правило, исследователь проверяет простую гипотезу.
Эта исходная гипотеза обычно называется нулевой. Что может выступить в таком качестве? В определенном смысле — что угодно, любое утверждение об исследуемой системе. Например, если у нас есть данные о росте призывников, мы можем проверить гипотезу, что неизвестный средний рост