Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
7
Астрономия и секвенирование ДНК. Специальный отчет в журнале The Economist (см. выше): Data, data everywhere // The Economist. — February 27, 2010. — P. 1–14.
8
Секвенирование ДНК: Pollack, Andrew. DNA Sequencing Caught in the Data Deluge // New York Times. — November 30, 2011. URL: http://www.nytimes.com/2011/12/01/business/dna-sequencing-caught-in-deluge-of-data.html?pagewanted=all.
9
Статистика Facebook: Facebook IPO prospectus // Facebook. — Form S-1 Registration Statement, US Securities And Exchange Commission. — February 1, 2012. URL: http://sec.gov/Archives/edgar/data/1326801/000119312512034517/d287954ds1.htm.
10
Статистика YouTube: Page, Larry. Update from the CEO // Google, April 2012. URL: http://investor.google.com/corporate/2012/ceo-letter.html.
11
Количество твитов: Geron, Tomio. Twitter’s Dick Costolo: Twitter Mobile Ad Revenue Beats Desktop On Some Days // Forbes. — June 6, 2012. URL: http://www.forbes.com/sites/tomiogeron/2012/06/06/twitters-dick-costolo-mobile-ad-revenue-beats-desktop-on-some-days/.
12
Информация и количество данных: Hilbert, Martin. How to measure the world’s technological capacity to communicate, store and compute information? / Martin and Hilbert Priscila Lopez // International Journal of Communication. — 2012. URL: http://www.ijoc.org/ojs/index.php/ijoc/article/viewFile/1562/742.
13
По оценкам за 2013 год, объем сохраненной информации равен 1,2 зеттабайта, из которых нецифровая информация составляет менее 2% (из интервью Гилберта Кукьеру).
14
Печатный станок и восемь миллионов книг (больше, чем было выпущено с момента основания Константинополя): Eisenstein, Elizabeth L. The Printing Revolution in Early Modern Europe. — Cambridge: Canto/Cambridge University Press, 1993. — P. 13–14.
15
Аналогия Питера Норвига. Из бесед с Норвигом о его труде The Unreasonable Effectiveness of Data (написанном в соавторстве), в частности: Norvig, Peter. The Unreasonable Effectiveness of Data // Лекция в Университете провинции Британская Колумбия. — Видео YouTube. — 23.09.2010. URL: http://www.youtube.com/watch?v=yvDCzhbjYWs.
16
Пикассо об изображениях в Ласко: Whitehouse, David. UK Science shows cave art developed early // BBC News Online. — October 3, 2001. URL: http://news.bbc.co.uk/1/hi/sci/tech/1577421.stm.
17
Jeopardy! («Рискуй!») — телеигра, популярная во многих странах мира. Российский аналог — «Своя игра». Здесь и далее прим. ред.
18
Walmart — американская компания-ретейлер, управляющая крупнейшей в мире розничной сетью.
19
CapitalOne — американская банковская холдинговая компания, специализирующаяся на кредитах.
20
«Человек, который изменил всё» (Moneyball) — биографическая спортивная драма режиссера Беннетта Миллера. На русском языке издана книга: Льюис М. Moneyball. Как математика изменила самую популярную спортивную лигу в мире. М. : Манн, Иванов и Фербер, 2014.
21
Линия Мажино — система французских укреплений на границе с Германией.
22
О Джеффе Йонасе и о том, что «говорят» данные: беседа с Джеффом Йонасом (декабрь 2010 года, Париж).
23
В Древнем Риме: перепись граждан с указанием имущества для определения их социально-политического, военного и податного положения.
24
История переписей в США: US Census Bureau. The Hollerith Machine (онлайн-материал). URL: http://www.census.gov/history/www/innovations/technology/the_hollerith_tabulator.html (последнее посещение — 25.07.2012).
25
Вклад Неймана: Kruskal, William. Representative Sampling, IV: the History of the Concept in Statistics, 1895–1939 / William Kruskal and Frederick Mosteller // International Statistical Review. — 1980. — Vol. 48. — P. 169–195, 187–188. Знаменитая статья Неймана: Neyman, Jerzy. On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection // Journal of the Royal Statistical Society. — 1934. — Vol. 97, No. 4 . — P. 558–625.
26
Выборки из 1100 результатов наблюдений достаточно. Пример см. в статье: Babbie, Earl. Practice of Social Research. — 12th ed., 2010. — P. 204–207.
27
Подводные камни опросов: Crossen, Cynthia. Fiasco in 1936 Survey Brought ‘Science’ To Election Polling // Wall Street Journal. — October 2, 2006. URL: http://online.wsj.com/public/article/SB115974322285279370-_rk13XDUHmIcnA8DYs5VUscZG94_20071001.html?mod=rss_free.
28
Влияние сотовых телефонов: Estimating the Cellphone Effect. — September 20, 2008. URL: http://www.fivethirtyeight.com/2008/09/estimating-cellphone-effect-22-points.html.
29
23andme — частная компания в Маунтин-Вью, Калифорния, где разрабатываются новые биотехнологические методы.
30
Генетическое секвенирование Стива Джобса: Isaacson, Walter. Steve Jobs. — 2011.
31
Google Flu Trends: прогнозирование на уровне городов с 75%-ной точностью: Dugas et al. Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics // CID Advanced Access. — January 8, 2012.
32
Эциони о временных данных: интервью Кукьеру (октябрь 2011 года).
33
Исполнительный директор компании Xoom: Rosenthal, Jonathan. Special report: International banking // The Economist. — May 19, 2012. — P. 7–8.
34
Корректировка боев сумо: Duggan, Mark. Winning Isn’t Everything: Corruption in Sumo Wrestling / Mark Duggan & Steven D. Levitt // American Economic Review. — 2002. — Vol. 92. — P. 1594–1605. URL: http://pricetheory.uchicago.edu/levitt/Papers/DugganLevitt2002.pdf.
35
Левитт С., Дабнер С. Фрикономика. М. : Манн, Иванов и Фербер, 2011.
36
Замена выборок: Savage, Mike. The Coming Crisis of Empirical Sociology / Mike Savage & Roger Burrows // Sociology. — 2007. — Vol 41. — P. 885–899.
37
Об анализе исчерпывающих данных, полученных от оператора мобильной связи: Onnela, J.-P. et al. Structure and tie strengths in mobile communication networks // Proceedings of the National Academy of Sciences of the United States of America (PNAS). — May, 2007. — Vol. 104. — P. 7332–7336. URL: http://nd.edu/~dddas/Papers/PNAS0610245104v1.pdf
38
Кросби: Crosby, Alfred W. The Measure of Reality: Quantification and Western Society. — 1997.
39
Множество способов сослаться на IBM: Patil, D. J. Data Jujitsu: The Art of Turning Data into Product // O’Reilly Media. — July 2012. URL: http://oreillynet.com/oreilly/data/radarreports/data-jujitsu.csp?cmp=tw-strata-books-data-products.
40
Идея о том, что «2 + 2 = 3,9»: Hopkins, Brian. Expand Your Digital Horizon With Big Data / Brian Hopkins and Boris Evelson // Forrester. — September 30, 2011.
41
Белый дом: Report To The President And Congress Designing A Digital Future: Federally Funded Research And Development In Networking And Information Technology // President’s Council of Advisors on Science and Technology. — December, 2010. — P. 71. URL: http://www.whitehouse.gov/sites/default/files/microsites/ostp/pcast-nitrd-report-2010.pdf.
42
Эндшпиль — заключительная часть шахматной партии.
43
Таблица шахматных эндшпилей. Наиболее полная общедоступная таблица шахматных эндшпилей, названная в честь ее создателей (Nalimovtableset), охватывает все варианты игры при шести (и менее) фигурах. Ее размер превышает 7 терабайт, и главная задача — сжатие содержащейся в ней информации. См.: Nalimov, E. V. Space-efficient indexing of chess endgame tables / E. V. Nalimov, G. McC. Haworth, and E. A. Heinz // ICGA Journal. — 2000. — Vol. 23, no. 3. — P. 148–162.
44
Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определенными принципами, размеченных по определенному стандарту и обеспеченных специализированной поисковой системой. Термин введен в употребление в 1960-х годах в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
45
Эффективность алгоритма: Banko, Michele. Scaling to Very Very Large Corpora for Natural Language Disambiguation / Michele Banko & Eric Brill // Microsoft Research. — 2001. — P. 3. URL: http://acl.ldc.upenn.edu/P/P01/P01–1005.pdf.
46
Демоверсия IBM: слова и цитаты: IBM. 701 Translator: Press release // IBM archives. — January 8, 1954. URL: http://www-03.ibm.com/ibm/history/exhibits/701/701_translator.html. См. также: Hutchins, John. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954. — November, 2005.
47
Проект IBM Candide: Berger, Adam L. et al. The Candide System for Machine Translation // Proceedings of the 1994 ARPA Workshop on Human Language Technology. — 1994. URL: http://aclweb.org/anthology-new/H/H94/H94–1100.pdf.
48
Корпус Google из 95 миллиардов предложений: Franz, Alex. All Our N-gram are Belong to You / Alex Franz and Thorsten Brants // Google blog post. — August 3, 2006. URL: http://googleresearch.blogspot.co.uk/2006/08/all-our-n-gram-are-belong-to-you.html.
49
Цитата из статьи Норвига: Halevy, A. The Unreasonable Effectiveness of Data / A. Halevy, P. Norvig, and F. Pereira // IEEE Intelligent Systems. — Mar./Apr., 2009. — P. 8–12. Обратите внимание, что ее название — вариация на тему знаменитой статьи Юджина Вигнера The Unreasonable Effectiveness of Mathematics in the Natural Sciences, в которой он рассматривает, почему физику можно аккуратно выразить в математических формулах, но они плохо годятся для гуманитарных наук. См.: Wigner, E. The Unreasonable Effectiveness of Mathematics in the Natural Sciences // Comm. Pure and Applied Mathematics. — 1960. — Vol. 13, no. 1. — P. 1–14.
50
Коррозия труб и враждебная среда связи в компании BP: Clarabut, Jaclyn. Operations Making Sense of Corrosion // BP Magazine. — 2011. — Issue 2. URL: http://www.bp.com/liveassets/bp_internet/globalbp/ globalbp_uk_english/reports_and_publications/ bp_magazine/STAGING/local_assets/pdf/BP_Magazine_2011_issue2_text.pdf.
51
Billion Prices Project — проект в рамках учебной инициативы, в котором используются цены, ежедневно собираемые на сотнях сайтов розничных торговцев по всему миру, для проведения экономических исследований.