Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
P(A | B) × P(B) = P(B | A) × P(A)
Пусть вас не пугает эта формула. Самое важное – не запомнить ту или иную формулу, а понять, что она делает и почему о ней стоит знать.
Теорема Байеса позволяет связать условную вероятность двух событий. Вероятность наступления события A при условии наступления события B связана с вероятностью наступления события B при условии наступления события A. Они не равны, но связаны приведенным выше уравнением.
Это может пригодиться, когда вам известна одна из условных вероятностей и вы хотите определить другую. Например:
– Медицинские исследователи хотят знать вероятность того, что у человека будет положительный результат скринингового теста на рак при условии, что этот человек болен раком, P(+ | Р). Тогда они смогут создать более точные тесты, позволяющие немедленно приступить к лечению. Разработчики политики хотят знать обратное – вероятность того, что человек болен раком при условии положительного результата скринингового теста, P(Р | +), потому что они не хотят подвергать людей ненужному лечению на основании ложноположительного результата (когда тест показывает наличие болезни при ее отсутствии).
– Прокуроры хотят знать вероятность того, что подсудимый виновен при условии наличия доказательств, P(В | Д). Это зависит от вероятности обнаружения доказательств при условии, что человек виновен, P(Д | В).
– Ваш поставщик услуг электронной почты хочет знать вероятность того, что электронное письмо – спам при условии, что оно содержит фразу «Бесплатные деньги!», P(Спам | Деньги). Используя исторические данные, он может рассчитать вероятность того, что электронное письмо содержит фразу «Бесплатные деньги!» при условии, что оно является спамом, P(Деньги | Спам). (Мы более подробно разберем этот пример в главе 11.)
– В вышеописанном мысленном упражнении вы хотите узнать вероятность наличия вируса на вашем компьютере при условии положительного теста, P(В | +). Вам известно обратное – вероятность положительного результата теста при условии наличия вируса в компьютере P(+ | В).
Все условные вероятности в этих примерах связаны теоремой Байеса. Это хорошая новость. Плохая новость – некоторые части этой теоремы трудно рассчитать. Дело в том, что не все вероятности легко выяснить. Например, вероятность того, что человек болен раком при условии положительного результата скринингового теста, может быть легче узнать, чем вероятность наличия этого заболевания у человека с отрицательным результатом теста.
Чтобы определить, достаточно ли у вас информации для применения теоремы Байеса, можно построить древовидную диаграмму (рис. 6.2). В качестве примера мы используем то же самое мысленное упражнение – и наконец покажем, почему правильный ответ составляет 50 %. Предположим, что в компании 10 000 ноутбуков. Поскольку вероятность положительного результата теста при наличии вируса на ноутбуке составляет 99 %, мы предполагаем, что при тестировании 1 % ноутбуков с вирусом мы будем получать отрицательный результат теста, P(– | В) = 1 %. Точно так же, учитывая, что вероятность отрицательного результата теста при отсутствии вируса на ноутбуке составляет 99 %, мы предполагаем, что при тестировании 1 % ноутбуков без вируса мы будем получать положительный результат теста, P(+ | без В) = 1 %.
Как видно на рис. 6.2, исходя из имеющейся у нас информации, 10 000 ноутбуков можно разделить на четыре группы: ноутбуки с вирусом, давшие отрицательный или положительный результат при тестировании, и ноутбуки без вируса, давшие отрицательный или положительный результат при тестировании. Давайте разберемся, что это значит. Если вы посмотрите на древовидную диаграмму, то поймете, что нам интересны только две ветви. Первый случай предполагает наличие вируса и положительный результат тестирования – это 99 ноутбуков. Второй случай предполагает отсутствие вируса и опять же положительный результат тестирования – тоже 99 ноутбуков. Такой результат называется ложноположительным.
Рис. 6.2. Древовидная диаграмма для сканирования компьютеров в большой компании на наличие вируса
Дело вот в чем. Мы уже знаем, что результат тестирования компьютера оказался положительным. Это означает, что он может принадлежать только одной из этих двух групп. Вы не знаете, какой именно, но если представить ноутбуки в виде шариков одинакового размера, то при вытаскивании одного из них вслепую из мешка вероятность того, что вы достанете шарик из той или иной группы, будет составлять 50 %.
А теперь давайте проверим свое (новое) интуитивное понимание ситуации математикой. Для этого используем теорему Байеса, заменив события A и B событиями В и +: P(В | +) × P(+) = P(+ | В) × P(В). Затем подставим известные нам величины вероятности:
P(+) = вероятность положительного результата теста = 198 положительных результатов /10000 = 1,98%
P(+ | В) = 99/100 = 99%
P(В) = 100/10000 = 1%
Подставив эти значения в выражение P(В | +) × P(+) = P(+ | В) × P(В), получаем:
P(В | +) × 1,98 % = 99 % × 1 %,
P(В | +) = (99 % × 1 %)/1,98%
P(В | +) = 50%
Математики многовато, но она позволила нам прийти к правильному ответу: вероятность наличия вируса на вашем ноутбуке при положительном результате теста составляет 50 %.
Убедитесь, что вероятности имеют смысл
В этой главе вам пришлось иметь дело с множеством чисел и обозначений, особенно в предыдущем разделе. Теперь давайте сделаем шаг назад и поговорим о способах осмысления и использования вероятностей.
Калибровка
Определяемые вероятности должны иметь смысл.
Например, при условии равных затрат и выгод проект с вероятностью успеха 60 % сопряжен с большим риском, чем проект с вероятностью успеха 75 %.
Мы знаем, что это кажется очевидным, однако люди часто оценивают события с вероятностью 60 % или 75 % как весьма вероятные, потому что их вероятность превышает 50 %. Но если бы это было так, вероятности не имели бы никакого значения и сводились бы к бинарным решениям типа «да/нет», при которых полностью утрачивается смысл статистического мышления и работы с неопределенностью.
Более того, если вероятность события составляет 75 %, оно должно происходить примерно в 75 % случаев[56]. Это кажущееся очевидным утверждение, называемое калибровкой, придает вероятности смысл. «Калибровка определяет соответствие фактической частоты наступления тех или иных событий в долгосрочной перспективе вашему прогнозу»[57].
Плохая калибровка делает невозможной точную оценку риска. Если вы самоуверенный юрист, который думает, что выиграет дело с вероятностью 90 %, хотя до этого выигрывал только в 60 % случаев, вы переоцениваете свои шансы на успех. Это пример плохой калибровки.
Итак, вероятности должны иметь смысл. Помните о том, что редкие события не являются невозможными, а высоковероятные события не обязательно наступают.
Редкие события могут случаться и случаются
Редкое событие может