Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Больше данных – больше доказательств
Если в процессе совершения покупок в Интернете вы видите продукт на сайте Amazon с рейтингом в 1 звезду, основанном на единственном обзоре, вы можете проигнорировать этот обзор – мнение одного человека. Однако если вы увидите продукт с низким рейтингом, основанным на сотнях отзывов (скажем, на 300), ваше мнение будет иным. Существует консенсус, согласно которому данный продукт является некачественным. Поэтому вы выбираете другой продукт – с рейтингом 4,9 звезды, основанном на 200 отзывах[58].
Это говорит о том, что вы уже понимаете, как количество точек данных, лежащих в основе рейтинга товара на Amazon, влияет на ваше доверие к нему. Размер выборки мы будем обозначать буквой N. Вы не испытываете доверия к рейтингу, основанному на одном обзоре (N = 1), но вас способны убедить рейтинги, основанные на выборках размером N = 300 и N = 200. Как вы уже догадались, размер выборки играет огромную роль в статистическом выводе. В самом деле, кажется маловероятным, хотя и не невозможным, чтобы продукт с рейтингом 4,9 звезды и N = 200 оказался полным хламом. А как насчет продукта с N = 1? Его обзор мог быть написан случайным интернет-троллем.
Мораль: размер выборки имеет значение. Больше данных – больше доказательств. (Мы же говорили, что это интуитивно понятно.)
Бросьте вызов статус-кво
По сути, наука и создание новых знаний предполагает бросание вызова статусу-кво. Когда накапливается достаточно доказательств в пользу того, что прежний образ мышления ошибочен, мы его адаптируем. Это же верно и для статистического вывода.
Простейшая аналогия – презумпция невиновности в американской системе уголовного права. Обвиняемые «невиновны до тех пор, пока их вина не будет доказана» (статус-кво). Подсудимый объявляется «виновным» лишь тогда, когда доказательства вне всяких обоснованных сомнений указывают на ошибочность статус-кво. Бремя доказывания того, что первоначальное предположение о невиновности подсудимого неверно, возлагается на сторону обвинения.
Табл. 7.1. Вопросы, нулевые гипотезы (H0) и альтернативные гипотезы (Ha)
Исследователи, ученые и компании используют эту логику для создания новых знаний, направленных на улучшение общества или бизнеса. Вот как это работает. Они начинают с постановки вопроса[59], подобного тем, которые перечислены в табл. 7.1, и используют его для так называемой проверки гипотезы.
Статус-кво называется нулевой гипотезой, которая обычно обозначается как H0. Как правило, ее выбирают в надежде впоследствии отбросить в пользу нового знания, называемого альтернативной гипотезой, обозначаемой как Ha. Разумеется, нулевая и альтернативная гипотеза зависят от заданного вопроса. В табл. 7.1 показано, как общие вопросы могут быть преобразованы в соответствующие гипотезы. Исследователи стремятся найти доказательства, позволяющие отвергнуть нулевую гипотезу в пользу альтернативной.
Обратите особое внимание на логику проверки гипотез, представленную в табл. 7.1. Какой бы правдоподобной ни казалась гипотеза, изначально вы предполагаете, что она неверна (то есть отталкиваетесь от статус-кво). При наличии достаточного количества доказательств, говорящих о том, что нулевая гипотеза (H0) очень маловероятна, вы отклоняете ее в пользу альтернативной (Ha).
Мораль: проверка гипотезы – отличительная черта научных экспериментов. Чтобы бросить вызов статус-кво, допустите его истинность в рамках нулевой гипотезы. При наличии достаточного количества доказательств (данных), говорящих о том, что нулевая гипотеза маловероятна, отклоните ее в пользу нового знания, содержащегося в альтернативной гипотезе.
Доказательства обратного
Предположим, вы играете в баскетбол с коллегами, и стажер просится в вашу команду, заявляя о том, что он попадает минимум в 50 % случаев. «Потрясающе», – думаете вы. Вашей команде нужен хороший бомбардир[60].
Перед игрой вы мысленно отмечаете (то есть формулируете нулевую гипотезу): процент реализации бросков стажера ≥ 50 %.
Игра начинается, и вы передаете ему мяч для выполнения открытого броска. Промах. «Ничего страшного», – думаете вы. Но затем он не попадает снова. Потом промахивается еще раз. И… еще. Четыре промаха подряд. Ну и ну. Это просто ужасно.
Ваша вера в него начинает колебаться. Этот парень действительно умеет играть или просто дурачится? Тем не менее даже у профессионалов бывают неудачные дни, и иногда они промахиваются четыре раза подряд. И вы продолжаете давать ему новые шансы. А он продолжает промахиваться. За всю игру стажер промахнулся 10 раз подряд, и ваша команда проиграла. Вы разочарованы и считаете этого парня лжецом.
Вы возвращаетесь за свой стол и решаете количественно оценить то жалкое выступление, свидетелем которого вы только что стали.
Итак, какова вероятность того, что игрок, реализующий 50 % своих бросков, промахнется 10 раз подряд?
Отталкиваясь от базовой вероятности, вы выполняете некоторые расчеты. Вероятность того, что он промахнется один раз, составляет 50 %. Вероятность двух промахов подряд составляет 50 % × 50 % = 25 % (при условии, что результаты бросков не зависят друг от друга, как говорилось в предыдущей главе). Продолжая эту логику, вы умножаете показатель 50 % сам на себя 10 раз: 0,5^10 = 0,00098, то есть 0,1 %, или примерно 1 из 1000.
Таким образом, вероятность данного конкретного результата, то есть 10 промахов подряд, при условии, что стажер, по его словам, способен реализовать 50 % бросков, составляет 1 из 1000.
Эта вероятность, равная 1 из 1000 или 0,001, называется p-значением (p означает probability – «вероятность»). Теперь вы должны решить, был ли у стажера просто неудачный день или ваша нулевая гипотеза, согласно которой процент реализации бросков стажера составляет 50 %, ошибочна?
Десять пропущенных бросков лишь подрывают доверие. Однако то, что вероятность неудачного дня составляет 1 из 1000, довольно убедительно доказывает то, что первоначальное утверждение стажера вряд ли было истинным. Скорее всего, вы отвергли нулевую гипотезу на более ранних этапах игры в пользу альтернативной гипотезы, Ha: процент реализации бросков стажера < 50 %.
Остановитесь на мгновение и спросите себя: когда вы начали сомневаться в способностях стажера вместо того, чтобы оправдывать его? Каким было пороговое число промахов, заставившее вас отвергнуть нулевую гипотезу?
Для примера предположим, что это пороговое значение составляло 5 промахов. Если бы стажер промахнулся только 4 раза подряд, вероятность чего составляет 50 % × 50 % × 50 % × 50 %[61] = 6,25 %, или 1 из 16, вы бы еще могли продолжать верить в то, что он хороший бомбардир. Однако после пятого промаха доказательств обратного стало слишком много. Этот порог в 5 промахов подряд называется уровнем значимости, после превышения которого полученные данные больше не соответствуют исходному утверждению.
Поскольку Вселенная полна вариаций, вы должны смириться с некоторым уровнем