Kniga-Online.club
» » » » Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Читать бесплатно Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман. Жанр: Программирование год 2004. Так же читаем полные версии (весь текст) онлайн без регистрации и SMS на сайте kniga-online.club или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:
показателя удовлетворенности клиентов, то есть вероятность получения оценки 9 или 10, составляет ровно 85 %.

19

Представьте, что мы описали обратную ситуацию и сказали вам, что в сельской местности наблюдается самый низкий уровень заболеваемости раком почки. Какие причины вы бы назвали? Попробуйте поразмышлять о них, и вы увидите, как легко сочинить историю на основе имеющихся данных.

20

Wainer, H. (2007). The most dangerous equation. American Scientist, 95(3), 249.

21

Здесь мы немного упрощаем. Перед выборами политические партии пытаются повлиять как на количество шариков в мешке, так и на их цвет. Но даже это не позволяет им узнать все о содержимом мешка, поэтому им приходится полагаться на выборку.

22

Данный пример взят с сайта www.johndcook.com/blog/2008/01/25/example-of-the-law-of-small-numbers

23

Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185(4157), 1124–1131.

24

О’Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).

25

Цитата из статьи NRP. “Challenger engineer who warned of shuttle disaster dies.” www.npr.org/sections/thetwo-way/2016/03/21/470870426/challenger-engineer-who-warned-of-shuttle-disaster-dies

26

Цитата из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер» (Report to the President by the Presidential Commission on the Space Shuttle Challenger Accident). С. 146. sma.nasa.gov/SignificantIncidents/assets/rogers_commission_report.pdf

27

Данные доступны для загрузки из репозитория для машинного обучения Калифорнийского университета в Ирвайне: archive.ics.uci.edu/ml/datasets/Challenger+USA+Space+ Shuttle+O-Ring

28

Dalal, S. R., Fowlkes, E. B., & Hoadley, B. (1989). Risk analysis of the space shuttle: pre-Challenger prediction of failure. Journal of the American Statistical Association, 84(408), 945–957.

29

Обратите внимание на то, что подобные вопросы вам следует задать до начала реализации проекта по работе с данными, как было сказано в главе 1.

30

Существуют способы использования данных наблюдений для выявления причинно-следственных связей, которые опираются на сильные предположения и продуманную статистику. Они называются методами выявления причинности.

31

Сбор всех сведений об интересующей совокупности называется переписью.

32

Мы вернемся к этой идее в одной из следующих глав при обсуждении так называемой систематической ошибки выжившего.

33

Производственным, инженерным и исследовательским организациям также следует позаботиться об определении повторяемости и воспроизводимости данных, измеряемых с помощью технического оборудования.

34

При обдумывании подходящего размера выборки специалисты по статистике отталкиваются от величины мощности, о которой мы поговорим в главе 7.

35

Цитата из статьи “Understand Regression Analysis”, Amy Gallo, глава 10 в HBR Guide to Data Analytics Basics for Managers (HBR Guide Series).

36

Tukey, J. W. (1977). Exploratory data analysis (Vol. 2, pp. 131–160).

37

Заинтересованные стороны не должны заниматься микроменеджментом. Между бизнес-лидерами и командами, работающими с данными, должен быть определенный уровень доверия.

38

De Cock, D. (2011). Ames, Iowa: Alternative to the Boston housing data as an end of semester regression project. Journal of Statistics Education, 19(3). Данные можно загрузить с сайта www.kaggle.com/c/house-prices-advanced-regression-techniques.

39

Компания Zillow очень серьезно относится к Zestimate®. В 2019 году она выделила 1 миллион долларов команде дата-сайентистов ради повышения точности прогнозов этого инструмента. venturebeat.com/2019/01/30/zillow-awards-1-million-to-team-that-reduced-home-valuation-algorithm-error-to-below-4

40

Диаграммы размаха также называют диаграммами типа «ящик с усами». «Ящик» содержит центральные 50 % наблюдений (значения в диапазоне между 25-м и 75-м процентилями), линия в ящике – это медиана, а «усы» показывают диапазон, в котором находятся оставшиеся точки данных. Точки, выходящие за пределы этого диапазона, – потенциальные выбросы.

41

Корреляция вовсе не означает, что наклон линии должен быть крутым. Идеальная корреляция между двумя переменными вполне может описываться почти плоской (хоть и не горизонтальной) линией.

42

Anscombe, F. J. (1973). Graphs in statistical analysis. The American Statistician, 27(1), 17–21. Для получения значений, напоминающих цены на дома, мы умножили зависимую переменную на 22 000.

43

Набор данных Datasaurus был создан Альберто Каиро и доступен на GitHub: github.com/lockedata/datasauRus

44

Авторы этого руководства поспорили о том, можно ли вообще не упомянуть эту фразу в книге, посвященной науке о данных. О результате этого спора вы можете догадаться сами.

45

Fisher, R. A. (1958). Cancer and smoking. Nature, 182 (4635), 596.

46

Паулос, Дж. А. «Математическое невежество и его последствия» (Издательство: Студия Артемия Лебедева, 2021).

47

Поищите в Интернете «Интерпретации вероятности», чтобы понять, что мы имеем в виду.

48

Разве можно опоздать на работу, работая на себя? В этом примере – да.

49

«Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).

50

Эта вероятность не была бы равна 100 %, потому что у команды противника тоже есть болельщики.

51

Вера в то, что прошлые независимые события могут произойти по прошествии достаточного количества времени, также известна как «закон средних чисел» – наукообразный термин, обозначающий склонность принимать желаемое за действительное.

52

Авторы книги ничего не имеют против таких завтраков.

53

Мы не утверждаем, что консультанты или хирурги так поступают. Так делают только адвокаты.

54

Confusion of the Inverse: en.wikipedia.org/wiki/Confusion_of_the_inverse. Доступ получен 4 июля, 2020.

55

С подробной историей данной теоремы можно ознакомиться в книге McGrayne, S. B. (2011). The Theory That Would Not Die: How Bayes’ Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy (American First ed.). Yale University Press.

56

Мы говорим «примерно», потому что во всем есть вариации. Но в долгосрочной перспективе событие, имеющее вероятность 75 %, должно происходить в 75 % случаев.

Перейти на страницу:

Алекс Дж. Гатман читать все книги автора по порядку

Алекс Дж. Гатман - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки kniga-online.club.


Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт отзывы

Отзывы читателей о книге Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт, автор: Алекс Дж. Гатман. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор kniga-online.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*