Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Постановка задачи: P(К > 2 или К нечетное) =
Правило сложения: P(К > 2) + P(К нечетное) – P(К > 2, К нечетное) =
Вероятности: 4/6 + 3/6–2/6
Ответ: 5/6
Выпадение числа 2 – это единственный случай, который не удовлетворяет ни одному из условий.
Вы наверняка уже устали от различных нотаций, игральных костей, монеток и опаздывающих на работу авторов. Чтобы вы могли отдохнуть от всего этого, мы предлагаем вам выполнить следующее мысленное упражнение.
Мысленное упражнение на определение вероятности
Сэм – замкнутый, но очень способный. Ему 29 лет. Он получил высшее экономическое образование в родной Калифорнии. В студенчестве он был одержим данными, работал волонтером в университетском статистическом консультационном центре и самостоятельно учился программировать на языке Python.
Что из этого более вероятно?
1. Сэм живет в Огайо.
2. Сэм живет в Огайо и работает дата-сайентистом.
Правильный ответ – № 1, хотя в описании нет и намека на то, что Сэм может жить в Огайо, не являясь при этом дата-сайентистом. Это вариация популярной задачи про Линду из книги «Думай медленно… решай быстро»[49], с которой у большинства людей возникают сложности. А какой ответ выбрали вы?
Ответ № 2? Возможно, потому, что мы рассказали вам о том, что Сэм занимался программированием и мог быть дата-сайентистом. Ответ № 2 кажется более вероятным именно потому, что в нем упоминается событие, связанное с прошлым Сэма. Однако он все же менее вероятен, чем ответ № 1. И вот почему.
В данном примере отсутствуют обозначения и числа, но он по-прежнему отражает важный урок из предыдущего раздела. Вероятность одновременного наступления любых двух событий не может превышать вероятность наступления каждого из них в отдельности. Чем больше «и» вы добавляете в то или иное утверждение, тем меньше будет итоговая вероятность. Для того чтобы Сэм был дата-сайентистом и жил в Огайо, он должен для начала просто жить в Огайо. Например, он мог бы жить в Огайо и работать актуарием.
Помните, что вероятность одновременного наступления двух событий определяется правилом умножения. Вероятность того, что Сэм живет в Огайо и работает дата-сайентистом (Д), можно обозначить как P(О, Д) = P(О) × P(Д | О). А поскольку вероятность никогда не превышает единицу, умножение P(О) – вероятности того, что Сэм живет в Огайо – на любую другую величину вероятности не может увеличить результирующее значение P(О) × P(Д | О). Таким образом, P(О, Д) ни при каких условиях не может превысить P(О), каким бы предпочтительным ни казался ответ № 2.
Все еще сложно? Вы могли прочитать ответ № 2 как условную вероятность: какова вероятность того, что Сэм живет в Огайо при условии, что он работает дата-сайентистом, P(O | Д)? Вероятность этого может превышать вероятность проживания Сэма в Огайо, P(O). Однако в данном случае разница между «и» и «при условии» имеет большое значение.
Рассмотрим более простой пример. Бейсбольная команда «Нью-Йорк Янкис» имеет преданных поклонников по всему миру. Предположим, что прямо сейчас проходит матч, который смотрят миллионы людей как вживую на стадионе, так и по телевизору. Теперь случайным образом выберите одного жителя планеты. Учитывая, что в мире живут миллиарды людей, крайне маловероятно, что вы выберете фаната «Янкис». Еще менее вероятен выбор фаната «Янкис», смотрящего игру на стадионе, потому что не все фанаты могут там присутствовать. Однако если бы у вас была возможность случайным образом выбрать человека, присутствующего на стадионе, все было бы иначе. Весьма вероятно, что он оказался бы фанатом «Янкис»[50].
Таким образом, вероятность того, что тот или иной человек – фанат «Янкис» и присутствует на игре, сильно отличается от вероятности того, что человек является фанатом «Янкис» при условии, что он присутствует на игре.
Дальнейшие шаги
После выполнения этого мысленного упражнения имеет смысл вспомнить о предупреждении, которое было сделано в начале этой главы: будьте внимательны и помните о том, что ваша интуиция может сыграть с вами злую шутку. Вероятности регулярно будут запутывать и сбивать вас с толку. Возможно, лучшее, что мы можем сделать для борьбы с этой проблемой, – это узнать о самых распространенных ловушках.
Теперь, когда вы познакомились с обозначениями и правилами теории вероятностей, пришло время научиться осознавать и критически осмыслять вероятности, с которыми вам предстоит столкнуться в ходе своей работы. Вот несколько советов, которые помогут вам не сбиться с пути:
– Будьте осторожны, делая предположения о независимости событий.
– Знайте, что все вероятности условны.
– Убедитесь в том, что вероятности имеют смысл.
Будьте осторожны, делая предположения о независимости событий
Если события не зависят друг от друга, вы можете перемножить вероятности их наступления. Например, вероятность выпадения двух орлов подряд при подбрасывании честной монеты составляет P(О) × P(О) = 1/2 × 1/2 = 1/4. Однако не все события являются независимыми, поэтому с осторожностью делайте соответствующее предположение при вычислении или анализе вероятностей.
Мы уже упоминали об этом в начале книги в связи с ипотечным кризисом 2008 года. Вероятность того, что человек перестанет платить ипотеку, не является независимой от вероятности того, что его сосед тоже перестанет ее платить, хотя финансисты с Уолл-стрит на протяжении многих лет думали иначе. И то и другое событие неразрывно связано с общим состоянием экономики и мира в целом.
Тем не менее допущение независимости событий, которые таковыми не являются, – весьма распространенная ошибка. Руководство вашей компании может допустить ее при принятии стратегических решений – и, как следствие, сильно недооценить вероятность одновременного наступления нескольких событий.
Представьте заседание совета директоров. Обсуждается вероятность того, что в будущем году компании удастся реализовать три интересных, но рискованных проекта: A, B, C. Осознавая потенциальные риски, руководители компании оценивают вероятность неудачи для каждого проекта как P(провала A) = 50 %, P(провала B) = 25 %, а P(провала C) = 10 %.
Кто-то берет калькулятор и перемножает вероятности: 50 % × 25 % × 10 % = 1,25 %. Руководители в восторге: вероятность того, что все три