Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Во вторую группу входят компании, имеющие знания или технологии. MasterCard решила делать все собственными силами. Некоторые не могут сделать окончательный выбор, но часть компаний все же обращаются к специалистам. Например, консалтинговая компания Accenture сотрудничает с компаниями во многих отраслях промышленности для развертывания передовых технологий в области беспроводных датчиков и анализа собираемых ими данных. В 2005 году в ходе пилотного проекта в Сент-Луисе (штат Миссури) в десятке общественных автобусов были размещены беспроводные датчики, контролирующие работу двигателя для прогнозирования поломок и определения оптимального времени для регулярного техобслуживания. Один только вывод, что город может отсрочить плановую замену деталей с пробега в 200–250 тысяч километров до 280 тысяч километров, сэкономил 600 000 долларов на всем автопарке.[118] При этом именно клиент, а не консалтинговая компания собрал плоды ценности данных.
В сфере медицинских данных мы видим поразительный пример того, как внешние технологические компании могут предоставлять полезные услуги. Вашингтонский госпитальный центр в сотрудничестве с Microsoft Research проанализировал свои анонимные медицинские записи (демографические данные пациентов, анализы, диагностика, лечение и многое другое) за последние несколько лет, чтобы узнать, как снизить частоту повторных госпитализаций и инфекционных заболеваний. Они составляют львиную долю расходов на здравоохранение, поэтому любое снижение их стоимости означало бы огромную экономию.
Методика позволила выявить несколько удивительных корреляций. Одним из результатов был список всех условий, которые увеличивали вероятность того, что выписанный пациент поступит на повторную госпитализацию в течение месяца. Некоторые из этих условий хорошо известны и не имеют простого решения. Так, пациент с застойной сердечной недостаточностью наверняка вернется, поскольку это заболевание трудно поддается лечению. Система выявила еще один неожиданный, но надежный прогностический фактор — психическое состояние пациента. Вероятность того, что человек будет повторно госпитализирован в течение месяца, заметно увеличивалась, если среди исходных жалоб пациента были слова «депрессия» и пр., что указывало на психическое расстройство.
Хотя эта корреляция ничего не говорит о причинности, она предполагает, что надлежащая психологическая помощь пациенту после выписки благотворно скажется и на его физическом здоровье. Это открытие может улучшить качество ухода, уменьшить количество повторных госпитализаций и снизить расходы на медицинское обслуживание. Данная корреляция была выявлена компьютером путем просеивания огромной базы данных, но человеку вряд ли удалось бы ее выявить самостоятельно. Корпорация Microsoft не вмешивалась в управление данными больницы. У нее не было гениальной идеи по их использованию. Да этого и не требовалось. Microsoft просто предложила правильный инструмент — свое программное обеспечение Amalga, чтобы извлечь ценную информацию.
Компании, компетентные в области больших данных, играют важную роль в цепочке создания ценности информации. Twitter, LinkedIn, Foursquare и другие компании имеют горы данных, которые нуждаются в обработке. Компании старого типа (такие как Ford и BP) тоже буквально утопают в данных, по мере того как все больше аспектов их деятельности и продуктов датифицируется. Как держатели данных они полагаются на специалистов в том, чтобы извлечь из них выгоду. Но, несмотря на престиж и солидные названия должностей в духе «ниндзя данных», работа технических экспертов не всегда так заманчива, как может показаться. Они трудятся в алмазных копях больших данных, получая при этом внушительную зарплату. Но драгоценные камни достаются тем, кто владеет данными.
Третья группа — это компании и частные лица, которые мыслят категориями больших данных. Их сила в том, чтобы видеть возможности раньше других, даже если у них нет навыков и данных на реализацию. Возможно, именно нехватка этих ресурсов позволяет им взглянуть на ситуацию со стороны. Их разум не обременен стандартными ограничениями, и они видят то, чего можно достичь, пусть это практически трудноосуществимо.
Брэдфорд Кросс — живое олицетворение того, что значит мыслить категориями больших данных. В августе 2009 года в свои двадцать с лишним лет он и его четверо друзей создали FlightCaster.com. Как и FlyOnTime.us, их служба прогнозировала вероятность задержки рейсов в США, анализируя данные обо всех рейсах за последнее десятилетие и сопоставляя их со статистическими данными о прошлых и текущих погодных условиях.
Примечательно, что этого не сделали держатели данных. Никто не обнаружил желания или нормативно-правовой инициативы использовать данные таким образом. Ведь если бы источники данных — Бюро транспортной статистики, Федеральное управление гражданской авиации и Национальная метеорологическая служба США — осмелились предсказать задержку коммерческих рейсов, Конгресс, наверное, провел бы слушания, и чиновники получили бы по заслугам. Поэтому за дело взялась группа ребят в толстовках и с математическим образованием. Авиакомпании тоже не могли — и не хотели — строить такие прогнозы. Они пользовались преимуществами как можно более неясного положения дел. А прогнозы службы FlightCaster оказались настолько точными, что даже сотрудники авиакомпании стали ими пользоваться: поскольку авиакомпании не объявляют о задержке вплоть до последней минуты, они хоть и являются основным источником информации, но не самым своевременным.
Ребята мыслили категориями больших данных, и это вдохновило их на реализацию идеи: общедоступные данные можно обработать так, чтобы дать миллионам людей ответы на животрепещущие вопросы. Служба FlightCaster Брэдфорда Кросса стала первопроходцем, но с большим трудом. В том же месяце, когда был запущен сайт FlightCaster (август 2009 года), энтузиасты из команды FlyOnTime.us начали в больших объемах собирать открытые данные, чтобы создать собственный сайт. В конечном счете преимущества, которыми наслаждалась компания FlightCaster, пошли на спад. В январе 2011 года Кросс и его партнеры продали свой стартап компании Next Jump, управляющей программами корпоративных скидок, в которых используются методы обработки больших данных.
Тогда Кросс обратил внимание на другую стареющую отрасль — новостные СМИ, увидев в ней нишу, которую мог бы занять внешний новатор. Его стартап Prismatic объединял и ранжировал контент со всего интернета на основе анализа текста, пользовательских настроек, популярности, связанной с социальными сетями, и анализа больших данных. Важно отметить, что система не делала различий между блогом подростка, корпоративным сайтом или статьей в Washington Post: если контент считался востребованным и популярным (что определялось по частоте просмотров и рекомендаций), он располагался в верхней части экрана.
Служба Prismatic стала отражением нового способа взаимодействия со СМИ, который присущ молодому поколению. Его суть в том, что источник информации не столь важен. И это унизительное напоминание СМИ о том, что общество в целом лучше осведомлено о событиях, чем они сами. Претенциозным журналистам приходится конкурировать с блогерами, которые могут днями не вылезать из своих халатов. Ключевым моментом является то, что служба Prismatic вряд ли появилась бы внутри самой медиаиндустрии, хоть она и собирает множество информации. Завсегдатаям бара Национального клуба печати не пришло в голову повторно использовать данные о потреблении СМИ в интернете. И специалисты по аналитике из Армонка (Нью-Йорк) или Бангалора (Индия) до этого не додумались. Зато Кросс, пользующийся дурной славой аутсайдера с растрепанными волосами и неторопливой речью, сумел предположить, что с помощью данных можно сообщать миру, на что следует обратить внимание, и делать это лучше редакторов New York Times.
Творческие аутсайдеры с блестящими идеями и их способность мыслить категориями больших данных напоминают происходившее на заре интернет-коммерции в середине 1990-х годов. Тогда первопроходцами становились те, кто не был обременен закоренелым мышлением или институционными ограничениями более старых отраслей. Так, хедж-фондовый специалист по статистике Джефф Безос основал книжный интернет-магазин, а разработчик программного обеспечения Пьер Омидьяр создал интернет-аукцион. Заметьте — не Barnes & Noble и Sotheby’s. Современные лидеры с таким масштабным мышлением зачастую не располагают данными. Зато при этом у них нет корыстных интересов или финансовых стимулов, которые мешали бы им раскрыть потенциал своих идей.
Как мы уже убедились, бывают случаи, когда компания сочетает в себе сразу несколько характеристик, позволяющих оперировать большими данными. Возможно, Эциони и Кросс оказались впереди благодаря своей сенсационной идее, но кроме нее у них были навыки. Сотрудники Teradata и Accenture тоже времени зря не теряют и время от времени выдают отличные идеи. Прототипы идей по-прежнему помогают оценить роль каждой компании. Операторы мобильной связи, о которых шла речь в предыдущей главе, собирают гигантский объем данных, но испытывают трудности в его использовании. Однако они могут передать эти данные тем, кто сумеет извлечь из них новую ценность. Подобным образом компания Twitter с самого начала передала права лицензирования на свои «пожарные шланги данных» двум другим компаниям.