Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
57
fivethirtyeight.com/features/when-we-say-70-percent-it-really-means-70-percent
58
Не забудьте оставить отзыв о нашей книге на сайте Amazon.
59
Как вы помните из главы 1, проект по работе с данными должен начинаться с формулирования четкого вопроса.
60
Мы понимаем, что 50 % – это отличный процент реализации бросков в баскетболе. У Леброна Джеймса, например, этот показатель за всю карьеру составляет 50 %. Так что нет, ваш стажер, скорее всего, не играет настолько хорошо, просто значение 50 % облегчает расчеты. Однако хорошо, что вы, как главный по данным, задумались о том, не слишком ли это оптимистично.
61
О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
62
О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
63
Об уточнении самого вопроса мы говорили в главе 1.
64
Мы использовали двусторонний точный тест Фишера.
65
В этом примере требуется выполнение так называемой проверки эквивалентности, обсуждение которой выходит за рамки данной главы. Однако имейте ее в виду, расскажите о ней своей команде и применяйте ее. Если вам понятна логика этой главы, у вас не возникнет сложностей с пониманием данной концепции.
66
“5 Sigma What’s That?” blogs.scientificamerican.com/observations/five-sigmawhats-that
67
Это можно исправить с помощью так называемой поправки на множественную проверку гипотез.
68
В статистике понятие «размер эффекта» может иметь множество значений. Здесь мы говорим о размере эффекта просто как о разнице между двумя числами.
69
Нет, на самом деле мы не собирали данные и не проводили подобное исследование.
70
Тест проводился с помощью языка программирования R для статистической обработки данных: 'prop.test(c(65, 50), c(100, 100), alternative = «greater»)'
71
Адамс, Скотт. Мультсериал «Дилберт». 3 января 2000 года.
72
Ну вроде того. На самом деле все не так просто.
73
Речь идет о наборе данных mtcars, входящем в состав программы R. http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.html. Для упрощения восприятия визуализации мы отображаем только 15 автомобилей из 32.
74
Поскольку признаки имеют разный размах, перед объединением их необходимо привести к одной числовой шкале.
75
Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 2(11), 559–572.
76
Количество сочетаний из 30 по 2 = 30!/((30–2)! 2!) = 435.
77
Ни одна из программ не возвращает результаты АГК, показанные здесь. Чтобы обойтись без множества уравнений и чисел, мы решили сосредоточиться на визуализации.
78
АГК и кластеризация никак не связаны между собой, так что их можно использовать независимо друг от друга.
79
Lloyd, S. (1982). Least squares quantization in PCM. IEEE transactions on information theory, 28(2), 129–137.
80
В этом примере мы делаем множество упрощающих допущений. С технической точки зрения этот метод не подходит для группировки точек на сфере, поскольку координаты широты и долготы не находятся в евклидовом пространстве. Используемая нами метрика расстояния не учитывает кривизну Земли, а также практические ограничения, вроде доступа к автомагистралям.
81
«Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022).
82
Когда вы слышите словосочетание «линейная регрессия», чаще всего речь идет именно о регрессии методом наименьших квадратов. Существуют и другие типы линейной регрессии, но метод наименьших квадратов наиболее популярен.
83
При изучении алгебры вы познакомились с уравнением прямой линии: y = mx + b. Для любого входа x вы можете получить выход y, умножив x на m и прибавив b. Если y = 2x + 5, то вход x = 7 дает выход y = 2×7 + 5 = 19.
84
Краткое напоминание по поводу терминологии: выход y называется переменной отклика, целевой или зависимой переменной. Вход x называется признаком, предиктором или независимой переменной. Вы можете столкнуться со всеми этими терминами в своей работе.
85
Использование абсолютных значений также позволило бы сделать отклонения положительными перед агрегированием. Однако возведение в квадрат более предпочтительно с математической точки зрения, поскольку оно имеет свойство дифференцируемости, что было жизненно важно на ранних этапах применения метода линейной регрессии, когда все расчеты приходилось делать вручную.
86
Для простой регрессии с одним входным параметром R2 представляет собой квадрат коэффициента корреляции, который мы обсуждали в главе 5. Однако значение R2 может быть и отрицательным. Такое бывает, когда модель линейной регрессии оказывается менее эффективной, чем предсказание среднего значения.
87
Верхний предел количества признаков/входных параметров в модели линейной регрессии составляет N – 1, где N – количество строк в наборе данных. Таким образом, для прогнозирования ежемесячных объемов продаж на 12-месячный период вы можете использовать до 11 входных параметров.
88
Модели линейной регрессии не вычисляются, если два входных параметра идеально коррелированы, поэтому мы добавили шум в данные в этом примере.
89
Этой идее посвящена целая область статистики под названием «Планирование экспериментов».
90
https://en.wikipedia.org/wiki/Leakage_(machine_learning)
91
Разница между объяснением и предсказанием с помощью моделей подробно описана в статье: Shmueli, G. (2010). To explain or to predict? Statistical science, 25(3), 289–310.
92
Не путайте кластеризацию с классификацией. Помните о том, что кластеризация не предполагает использование меток. При кластеризации если метки и присваиваются, то самим аналитиком и только впоследствии. При решении задач классификации метки изначально присутствуют в наборе данных.
93
Логистическая регрессия, как вы узнаете далее, предсказывает