Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
В то же время большие данные могут означать, что мы всегда остаемся узниками своих предыдущих действий, которые модели прогнозирования используют против нас, претендуя на знание наших последующих действий: нам никогда не уйти от того, что случилось. «Прошлое — это лишь пролог», — писал Уильям Шекспир. Большие данные закрепляют это утверждение алгоритмически со всеми его достоинствами и недостатками. Но омрачит ли это нашу радость каждому восходу солнца или желание оставить в этом мире свой след?
Скорее всего, наоборот. Зная, что может произойти в будущем, мы примем надлежащие меры, чтобы предотвратить проблемы или улучшить результаты. Мы сможем заметить, кто из студентов начал «скатываться», задолго до выпускного экзамена. Мы выявим мельчайшие раковые опухоли и вылечим их, прежде чем они успеют разрастись. Мы узнаем о вероятности нежелательной подростковой беременности или преступности и сможем вмешаться, сделав все возможное, чтобы предотвратить вероятный исход. Мы предупредим пожары с потенциальными жертвами в многоквартирных зданиях Нью-Йорка, зная, какие из них проверить в первую очередь.
Ничто не предопределено, потому что мы всегда можем отреагировать на полученную информацию. Прогнозы больших данных не высечены на камне — это всего лишь наиболее вероятные результаты, а значит, при желании их можно изменить. Мы сами выбираем, как встретить и приручить будущее — словно Мори, отыскавший естественные пути среди огромной глади моря и ветров. Для этого не нужно понимать природу космоса или доказывать существование богов — достаточно больших данных.
Больше чем большие данные
Преобразуя свою жизнь с помощью больших данных — оптимизируя, улучшая, повышая эффективность и используя преимущества, — какую роль мы отводим интуиции, вере, неопределенности и новизне?
Большие данные учат нас тому, что более эффективные поступки и постоянное совершенствование, пусть и лишенные глубокого понимания, достаточно надежны. Твердо придерживаясь такого подхода, вполне можно преуспеть. Даже если вы не знаете, почему ваши усилия сказываются тем или иным образом, с большими данными вы добьетесь большего успеха, чем без них. Флауэрс и его напарники в Нью-Йорке, может, и не являются воплощением просвещенных мудрецов, но они и вправду спасают жизни. Так что большие данные не только повышают нашу эффективность, но со временем, вероятно, смогут дать то, что мы могли бы назвать мудростью.
Большие данные — нечто большее, чем холодный мир алгоритмов и автоматики. Существенную роль играют люди со всеми своими слабостями, заблуждениями и ошибками, поскольку эти черты — неотъемлемая часть творчества, интуиции и гениальности человека. Одни и те же беспорядочные умственные процессы ведут как к унижениям или упорству в заблуждениях, так и к успехам и обретению величия. Это наводит на мысль, что следует приветствовать некоторую неточность как своего рода часть человеческой природы, так же как мы учимся охватывать беспорядочные данные, поскольку они служат большой цели. В конце концов, беспорядочность является важным достоянием мира и нашего мышления. Принять ее и считаться с ней — значит получить преимущества.
Вы спросите, какой толк от людей в условиях, когда решения опираются на данные, а интуиция противоречит фактам? Если бы все обращались к данным и использовали соответствующие инструменты, возможно, критическим отличием стал бы элемент непредсказуемости — человеческий фактор интуиции, риска, случайностей и ошибок.
В таких условиях неизбежно придется выкроить место для человека — его интуиции, здравого смысла и прозорливости, чтобы их не заглушили данные и машинные ответы. Главное преимущество человека заключается в том, чего не могут уловить и показать алгоритмы и кремниевые микросхемы, поскольку это нельзя выразить в виде данных. Мы имеем в виду не то, что есть, а то, чего нет, будь то пустое пространство, трещина в тротуаре или невысказанная либо пока еще не сформировавшаяся мысль.
Человеческий фактор имеет огромное значение для достижения прогресса в обществе. Большие данные означают, что мы можем экспериментировать быстрее и исследовать больше инициатив, при этом создавая больше инноваций. Искра изобретения — то, о чем не узнаешь из данных, и то, что не удастся подтвердить при любом их количестве, поскольку речь идет о том, чего пока не существует. Если бы Генри Форд спросил большие данные, чего хотят его клиенты, они бы ответили — более быстрых лошадей (мы перефразировали его крылатую фразу). В мире больших данных будут поощряться такие человеческие качества, как творчество, интуиция, риск и интеллектуальные амбиции, ведь наша изобретательность — источник прогресса.
Большие данные являются как инструментом, так и ресурсом и предназначены в большей степени информировать, чем объяснять. Они ведут людей к пониманию, но все еще могут вызывать недоразумения в зависимости от того, как с ними обращаться. Какими бы ослепительными ни были возможности больших данных, мы не должны позволять, чтобы их соблазнительный блеск затмил свойственные им недостатки.
Мы никогда не сможем собрать, сохранить или обработать всю совокупность мировой информации — максимальное количество «N = всё» — с помощью существующих технологий. Лаборатория физики элементарных частиц ЦЕРН в Женеве собирает менее 0,1% информации, которая создается в процессе экспериментов, а остальное рассеивается, как дым, вместе с сопутствующими знаниями.[166] Но это вряд ли новая истина. Общество всегда было ограничено в инструментах, используемых для измерения и познания действительности — от компаса и секстанта до телескопа, радара и, наконец, GPS. Наши инструменты завтра могут стать вдвое, десятикратно или даже в тысячу раз мощнее, чем сегодня, основательно снизив значимость наших нынешних знаний. В скором времени наш мир больших данных покажется чем-то столь же забавным, как память 4 Кб бортового управляющего компьютера «Аполлон-11».[167]
Мы всегда сможем собирать и обрабатывать лишь малую часть совокупной всемирной информации, и она может быть только подобием действительности, словно тени на стенах пещеры Плато.[168] Поскольку информация не бывает идеальной, наши прогнозы так или иначе подвержены ошибкам. Но это не означает неправильности данных — просто они не бывают полными. Такое положение вещей не отрицает открытий со стороны больших данных, но все расставляет по местам. Большие данные не дают окончательных ответов, но и те, что есть, дают нам возможность дождаться лучших методов и, следовательно, лучших ответов. А между тем нам следует использовать большие данные с большой долей беспристрастности… и человечности.
Примечания
1
Статья о тенденциях распространения гриппа, опубликованная в научном журнале Nature: Jeremy Ginsburg et al. Detecting influenza epidemics using search engine query data // Nature. — 2009. — Vol. 457. — P. 1012–1014. URL: http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html
2
Дополнительное исследование службы Google Flu Trends (в соответствии с независимым дополнительным клиническим исследованием в госпитале Джона Хопкинса): Dugas et al. Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics // CID Advanced Access. — January 8, 2012. — DOI 10.1093/cid/cir883.
3
Покупка авиабилетов: Farecast — информация от Кеннета Кукьера: Kenneth, Cukier. Data, data everywhere // The Economist. — February 27, 2010. — P. 1–14. А также интервью с Эциони (2010–2012 гг.).
4
Директор исследовательского центра имени Тьюринга при Вашингтонском университете.
5
Статья Эциони «Гамлет»: Etzioni, Oren. To buy or not to buy: mining airfare data to minimize ticket purchase price / Oren Etzioni, C. A. Knoblock, R. Tuchinda, and. A. Yates // SIGKDD ’03. — August 24–27, 2003. URL: http://knight.cis.temple.edu/~yates//papers/hamlet-kdd03.pdf.
6
Сколько компания Microsoft заплатила за Farecast. Из сообщений СМИ, в частности: Secret Farecast buyer is Microsoft // Seattlepi.com. — April 17, 2008. URL: http://blog.seattlepi.com/venture/2008/04/17/secret-farecast-buyer-is-microsoft/?source=mypi.
7
Астрономия и секвенирование ДНК. Специальный отчет в журнале The Economist (см. выше): Data, data everywhere // The Economist. — February 27, 2010. — P. 1–14.
8
Секвенирование ДНК: Pollack, Andrew. DNA Sequencing Caught in the Data Deluge // New York Times. — November 30, 2011. URL: http://www.nytimes.com/2011/12/01/business/dna-sequencing-caught-in-deluge-of-data.html?pagewanted=all.
9
Статистика Facebook: Facebook IPO prospectus // Facebook. — Form S-1 Registration Statement, US Securities And Exchange Commission. — February 1, 2012. URL: http://sec.gov/Archives/edgar/data/1326801/000119312512034517/d287954ds1.htm.
10
Статистика YouTube: Page, Larry. Update from the CEO // Google, April 2012. URL: http://investor.google.com/corporate/2012/ceo-letter.html.
11
Количество твитов: Geron, Tomio. Twitter’s Dick Costolo: Twitter Mobile Ad Revenue Beats Desktop On Some Days // Forbes. — June 6, 2012. URL: http://www.forbes.com/sites/tomiogeron/2012/06/06/twitters-dick-costolo-mobile-ad-revenue-beats-desktop-on-some-days/.