Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Большие данные имеют теоретическую основу. При анализе больших данных используются статистические и математические теории, а иногда и теоретические знания из области компьютерных наук. Да, это не теории о причинной динамике того или иного явления (например, гравитации), но все же теории! И, как было показано ранее, модели на основе этих теорий, лежащих в основе анализа больших данных, открывают полезные возможности прогнозирования. На самом деле анализ больших данных может предложить свежий взгляд и новые идеи именно потому, что не обременен рамками традиционного мышления и присущими ему предубеждениями, которые неявно представлены в теориях конкретной области.
Поскольку анализ больших данных основан на теориях, эту основу невозможно игнорировать — более того, нужно признать, что она тоже влияет на результат. Все начинается с того, как мы выбираем данные. Их сбор может быть обусловлен удобством (доступны ли данные) или экономией (можно ли получить данные по дешевке). Наш выбор в данном случае зависит от теорий. Как полагают Дана Бойд[69] и Кейт Кроуфорд,[70] наши находки зависят от того, что мы выбираем. В конце концов, специалисты Google использовали в качестве закономерности условия поиска, связанные с гриппом, а не с размерами обуви. Точно так же, анализируя данные, мы выбираем инструменты, которые опираются на теории. Наконец, интерпретируя результаты, мы снова применяем теоретические знания. Эпоха больших данных отнюдь не лишена теорий — они повсюду, со всеми вытекающими последствиями.
Большие данные не предрекают «конец теории», но принципиально меняют наше представление об окружающем мире. Обществу предстоит еще ко многому привыкнуть ввиду этих изменений. Многие учреждения столкнутся с новыми трудностями. Но огромные преимущества, которые мы получим, делают такой компромисс не только целесообразным, но и неизбежным. При этом следует отметить, как это произойдет. Большинство специалистов в области высоких технологий, поскольку сами занимаются их созданием, сказали бы, что все дело в новых инструментах — от быстрых чипов до эффективного программного обеспечения. Однако эти инструменты не настолько важны, как можно подумать. Более глубокая причина сложившихся тенденций лежит в том, что у нас появилось намного больше данных, так как стало фиксироваться больше факторов действительности. Об этом — в следующей главе.
Глава 5
Датификация
Мори Мэтью Фонтейн был многообещающим офицером военно-морского флота США. Получив новое назначение, в 1839 году он направился на бриг Consort. Его дилижанс внезапно съехал с дороги, опрокинулся, и Мори вылетел наружу. Жестко приземлившись, он сломал бедренную кость и вывихнул колено. Местный врач вправил ему коленный сустав, но бедренная кость срослась неправильно, и через несколько дней ее потребовалось повторно ломать. Из-за травм 33-летний Мори начал прихрамывать и стал непригоден к морской службе. Спустя почти три года, потраченных на оздоровление, он был назначен на офисную службу в ВМФ в качестве руководителя отдела со скучным названием «Депо карт и приборов».
И эта должность подошла ему как нельзя лучше! Будучи молодым штурманом, Мори задавался вопросом, почему корабли движутся по водной глади зигзагообразно, а не по прямой. Задавая этот вопрос капитанам, он слышал в ответ, что намного лучше держаться знакомого курса, чем рисковать и идти по малознакомому, который таит в себе скрытые опасности. Океан считался непредсказуемым царством, полным неожиданностей, волн и порывов ветра.
Имея опыт путешествий, Мори знал, что это не совсем так. Он во всем искал систему. Находясь в просторном порту в Вальпараисо (Чили), он заметил, что ветры дуют с точностью часов. Вечерний сильный ветер резко затихал на закате и сменялся легким бризом, будто кто-то щелкнул выключателем. Во время другого рейса Мори пересек теплые ярко-синие воды Гольфстрима, которые текут между темными стенами морских вод Атлантики по одному и тому же пути, словно река Миссисипи. Португальцы и вправду веками плавали по Атлантике, опираясь на постоянные восточные и западные ветры — пассаты (от древнеангл. «путь» или «курс», который стал ассоциироваться с торговлей).
Всякий раз, оказываясь в новом порту, мичман Мори отправлялся на поиски старых морских капитанов, чтобы перенять знания, основанные на опыте, который передавался из поколения в поколение. Так он узнал о приливах, ветрах и морских течениях, действующих с определенной закономерностью, о которой не прочтешь ни в одной книге и которой не увидишь ни на одной карте, что выпускались для моряков военно-морским флотом. Вместо этого в ВМФ полагались на карты порой столетней давности, многие из которых содержали значительные упущения или откровенные неточности. Занимая новую должность начальника депо карт и приборов, Мори стремился исправить это положение.
Со вступлением на пост он пополнил депо барометрами, компасами, секстантами и хронометрами. Он обратил внимание на множество хранившихся здесь книг по морскому делу, карт и схем. Среди материалов были заплесневелые ящики, забитые старыми журналами со всех прошлых плаваний капитанов ВМС. Предшественники рассматривали их как мусор, но Мори отряхнул пыль с покрытых пятнами морской соли книг и заглянул внутрь. Увиденное не оставило его равнодушным.
Здесь была как раз нужная информация: записи о ветре, водах и погоде в определенных точках, расписанные по датам. Некоторые из них были не слишком ценными, зато множество других изобиловали полезной информацией. Сведя их, Мори понял, что можно создать совершенно новую форму навигационной карты. Журналы были бессистемными. С чудаковатыми стишками и набросками на полях, они порой казались попыткой спастись от скуки в пути. Но были и сведения, которые пригодились. При помощи десятков «расчетчиков» (так назывались те, кто занимался расчетом данных) Мори начал трудоемкий процесс сведения информации, которая хранилась в истрепанных журналах.
Мори объединил данные и разделил всю Атлантику на блоки по пять градусов долготы и широты. Он отметил температуру, скорость и направление ветра и волн, а также соответствующий месяц, поскольку тенденции разнились в зависимости от времени года. Объединенные данные показывали определенные тенденции и указали более удачные маршруты.
Из поколения в поколение моряки передавали советы отправлять суда то в спокойные воды, то навстречу встречным ветрам и течениям. На одном из распространенных маршрутов — из Нью-Йорка в Рио-де-Жанейро — моряки, как правило, боролись со стихией, а не союзничали с ней. Американских шкиперов учили избегать опасных плаваний вдоль пролива к югу от Рио, поэтому суда легко скользили по юго-восточному курсу, а по пересечении экватора меняли его на юго-западный. Пройденное расстояние равнялось двум маршрутам через всю Атлантику. Как оказалось, в этом не было необходимости: они могли спокойно придерживаться прямого курса на юг.
Для большей точности Мори нужна была дополнительная информация. Он создал стандартную форму для регистрации данных судов и обязал все суда военно-морского флота США заполнять ее и сдавать по возвращении. Поскольку капитаны торговых судов жаждали получить его карты, Мори настоял, чтобы взамен они пустили в оборот свои журналы (тем самым образовав раннюю версию вирусной социальной сети). Мори объявил, что «каждое судно, которое выходит в открытое море, отныне может рассматриваться как плавающая обсерватория, храм науки». Для уточнения карт он искал другие точки данных (так же на основе алгоритма вычисления рейтингов веб-страниц PageRank была создана система Google, учитывающая больше сигналов). Мори поручил капитанам периодически бросать в море бутылки с записками, в которых указывать день, должность, преобладающие ветра и течения, а также вылавливать все бутылки, которые встречаются им на пути. Многие корабли вывешивали специальный флаг, чтобы показать, что они участвуют в обмене информацией (предвестники значков-ссылок «поделиться», которые отображаются на некоторых веб-страницах).
На основе данных сами собой вырисовывались естественные морские пути, где ветры и течения были особенно благоприятными. Карты Мори, как правило, сокращали долгое путешествие на треть, обеспечивая купцам значительную экономию. «Пока я не взял на вооружение ваш труд, я пересекал океан с завязанными глазами», — с благодарностью писал один из капитанов. Даже бывалые моряки, которые отвергали новомодные карты и полагались на старые пути, выполняли полезную функцию: если на их путешествие уходило больше времени или они попадали в беду, это служило лишним доказательством в пользу системы Мори. К моменту публикации своей магистерской работы «Физическая география моря» в 1855 году Мори успел определить координаты 1,2 миллиона точек данных. «Таким образом, молодой моряк, вместо того чтобы брести на ощупь вперед, пока не наберется опыта… здесь сразу нашел бы рекомендации, основанные на опыте тысяч штурманов»,[71] — писал Мори.