Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Ценность открытых данных
Считается, что сайты вроде Google и Amazon были первопроходцами в области больших данных, но это не так. Первоначальными сборщиками информации в массовом масштабе были государственные органы, и они по-прежнему дадут фору любой частной компании в том, что касается огромного объема управляемых данных. В отличие от держателей данных в частном секторе, государственные органы, как правило, обязывают людей предоставить информацию, а не убеждают или предлагают что-то взамен. Поэтому они и дальше будут собирать и накапливать огромные объемы данных.
Уроки больших данных применимы как к общественным, так и к коммерческим структурам; ценность данных правительственных структур по большому счету скрыта и может быть извлечена только путем инновационного анализа. Несмотря на преимущественное положение в этом отношении, государственные органы, как правило, не умеют эффективно ими распоряжаться. В последнее время стала популярной мысль о том, что лучший способ извлечь ценность из правительственных данных — предоставить эту задачу частному сектору и обществу в целом. И эта идея небезосновательна. Когда государство собирает данные, оно делает это от имени своих граждан и, следовательно, должно предоставить доступ к ним обществу, за исключением ограниченного числа случаев, связанных, например, с возможностью нанести вред национальной безопасности или правам на частную жизнь других людей.
Эта идея привела к несчетному количеству проектов «открытых государственных данных» по всему миру. Утверждая, что государственные органы являются лишь хранителями собираемой информации, а частный сектор и общество найдут ей инновационное применение, сторонники открытых данных призывают официальные органы открыто публиковать данные в общественных и коммерческих целях — разумеется, в стандартизированной форме, пригодной для машинного считывания и обработки, иначе эту информацию можно будет назвать общедоступной только номинально.
Идея открытых государственных данных получила развитие, когда Барак Обама в свой первый полный рабочий день 21 января 2008 года издал президентский указ, обязывающий руководителей федеральных агентств выпускать как можно больше данных. «Перед лицом сомнений открытость имеет приоритетное значение», — наставлял Обама.[106] Это блестящее заявление, особенно в сравнении с мнением его предшественника, который поручил агентствам делать прямо противоположное. По указу Обамы был создан сайт data.gov — хранилище общедоступной информации от федерального правительства. Сайт стремительно вырос с 47 наборов данных в 2009 году до почти 450 000, получаемых из 172 агентств, к своему трехлетию в июле 2012 года.
Значительный прогресс достигнут даже в сдержанной Великобритании, где большая часть государственной информации защищена авторским правом, принадлежащим короне, а получение лицензии на ее применение (например, почтовых индексов для интернет-компаний на карте) — трудоемкий и дорогостоящий процесс. Правительство Великобритании издало указы для поощрения открытости информации и поддержки в создании Института открытых данных (одним из руководителей которого стал Тим Бернерс-Ли, изобретатель всемирной паутины WWW), чтобы содействовать новейшим способам использования открытых данных и высвободить их из цепких рук государства.
Европейский союз объявил инициативы относительно открытых данных, которые вскоре могут приобрести континентальный масштаб. Некоторые страны других континентов, такие как Австралия, Бразилия и Чили, уже выпустили и реализовали стратегии открытых данных. Помимо национального уровня растет число городов и муниципалитетов по всему миру, которые также приняли открытые данные. Не отстают от них и международные организации, включая Всемирный банк, который открыл сотни наборов данных экономических и социальных показателей, доступ к которым ранее был ограничен.
Тем временем вокруг данных сформировались сообщества веб-разработчиков и передовых «умов», стремящихся выяснить способы получения максимальной отдачи от данных, например Sunlight Foundation в США и Open Knowledge Foundation в Великобритании.
Одним из первых примеров возможностей использования открытых данных является американский сайт FlyOnTime.us. Он позволяет в интерактивном режиме узнавать, среди прочего, вероятность того, что ненастная погода приведет к задержке рейсов в конкретном аэропорту. Сайт объединяет информацию о рейсах и о погоде из официальных источников данных, которые находятся в свободном доступе в интернете. Его разработали сторонники открытых данных, чтобы наглядно показать полезность информации, которую накопило федеральное правительство. Кроме того что данные общедоступны, исходный код сайта тоже открыт, так что другие могут учиться на его примере, а также использовать его повторно.
FlyOnTime.us дает возможность данным «говорить», и они нередко сообщают неожиданные факты. Например, на сайте можно увидеть, что на рейсах из Бостона в нью-йоркский аэропорт Ла Гуардиа задержки из-за тумана длятся вдвое дольше, чем из-за снега. Большинство людей, слоняющихся в зале вылета, вряд ли бы об этом догадались, ведь снег кажется более весомой причиной задержки. Это одно из тех открытий, которые становятся возможными благодаря большим данным. В данном случае понадобилось обработать статистические данные о задержках рейса из Транспортного бюро США, текущую информацию о ситуации в аэропорту из Федерального управления гражданской авиации США, предыдущие отчеты о погоде из Национального управления океанических и атмосферных исследований, а также информацию о погодных условиях в режиме реального времени из Национальной метеорологической службы. FlyOnTime.us показывает, что не обязательно собирать или контролировать информационные потоки, чтобы получать данные и применять их с пользой, как это делают поисковые системы и крупные розничные торговцы.
Оценить то, что бесценно
Измерить ценность данных — как общедоступных, так и закрытых в корпоративных хранилищах — непростая задача. Рассмотрим события пятницы 18 мая 2012 года. В тот день 28-летний основатель Facebook Марк Цукерберг из главного офиса компании в городе Менло-Парк, Калифорния, дал символический звонок к открытию биржи NASDAQ. Отныне крупнейшая в мире социальная сеть, которая могла похвастать тем, что в ней зарегистрирован каждый десятый человек на планете, стала публичной компанией. Пакет акций тут же вырос на 11%, как в большинстве технологических компаний в их первый торговый день. Ожидалось практически чистое удвоение стоимости. Но в тот день произошло нечто странное: акции Facebook начали падать. Оказалось, произошел технический сбой в компьютерах NASDAQ, который временно приостановил торговлю. Но надвигалась более масштабная проблема. Почувствовав неприятности, биржевые андеррайтеры во главе с Morgan Stanley вынуждены были искусственно поддерживать котировки не ниже цены выпуска.
Накануне вечером банки Facebook оценили компанию в 38 долларов за акцию, что в общей сумме составляло 104 миллиарда долларов (для сравнения: это примерно рыночная стоимость компаний Boeing, General Motors и Dell Computers вместе взятых). Сколько на самом деле стоит Facebook? По результатам аудита финансовой отчетности за 2011 год, по которой инвесторы оценивали компанию, активы Facebook составили 6,6 миллиарда долларов. В их стоимость вошли аппаратные средства, патенты и другое материальное имущество. Что касается балансовой стоимости огромных запасов размещаемой информации, которая хранилась в корпоративном хранилище Facebook, она равнялась нулю. Точнее, вообще не была включена. И это притом что, по сути, главным ресурсом компании являются данные.[107]
Ситуация становилась все более странной. Дуг Лэйни, вице-президент по исследованиям в компании Gartner, которая занимается изучением рынка, еще до первичного размещения акций (IPO) подсчитал, что в период между 2009 и 2011 годами компания Facebook собрала 2,1 триллиона единиц «монетизируемого контента», включая пометки «Нравится», опубликованные материалы, комментарии и пр. При сопоставлении этих данных с оценкой IPO компании получалось, что каждый элемент, рассматриваемый как отдельная точка данных, стоил около четырех центов. Взглянув на эти результаты под другим углом, можно сделать вывод, что каждый пользователь Facebook (как источник собираемой информации) оценивался в 100 долларов.
Как объяснить огромное расхождение между стоимостью Facebook по стандартам бухгалтерского учета (6,6 миллиарда долларов) и тем, во сколько компанию первоначально оценил рынок (104 миллиарда долларов)? Внятного объяснения, пожалуй, нет. Скорее, существует всеобъемлющее соглашение, что нынешний метод определения корпоративной стоимости — исходя из «балансовой стоимости» компании (по сути, стоимости ее материальных активов) — уже не отражает реальной стоимости компании. Разрыв между «балансовой» и «рыночной» стоимостью (которую компания получила бы на фондовом рынке, будь она скуплена целиком) неуклонно рос на протяжении десятилетий.[108] В 2000 году Сенат США даже провел слушания по вопросам модернизации текущей модели финансовой отчетности, созданной в 1930-х годах, когда информационного бизнеса и не было как такового. Эта проблема затрагивает не только балансовый отчет компании — неспособность правильно оценивать стоимость компании может привести к бизнес-рискам и нестабильности рынка.[109]