Не лги себе. Почему Big Data знает тебя лучше, чем ты сам, и как использовать это, чтобы добиться успеха - Сет Стивенс-Давидовиц
Так кто же был прав, Боб Доул или Африка?
Двадцать два года назад честным ответом со стороны ученых, занимающихся данными, было бы… пожатие плечами. Исчерпывающие научные исследования в пользу как того, так и другого ответа отсутствовали. Знакомая нам проблема проявила себя еще раз: трудно установить причинность.
Из некоторых районов, несомненно, выходит больше успешных детей[79]. Вот забавный факт, о котором я говорил в своей предыдущей книге: из беби-бумеров, родившихся в Уоштено, штат Мичиган (то есть в округе, где располагается Мичиганский университет), каждый 864-й совершил что-то достойное отдельной страницы в Википедии. В преимущественно сельском округе Харлан, штат Кентукки, в Википедию попал каждый 31 167-й. Но в какой мере это обусловлено тем, что дети профессоров и других профессионалов из верхушки среднего класса действительно умнее и амбициознее – то есть использовали бы тот же интеллект и напор, родись они в сельской местности в штате Кентукки? Проще говоря, разные районы населяют действительно разные люди, и поэтому на первый взгляд невозможно узнать, насколько конкретный район обуславливает успех ребенка.
Пожатие плечами перестало быть актуальным ответом на вопрос о роли района, где воспитывался ребенок, примерно пять лет назад. Именно тогда этой темой заинтересовался экономист Радж Четти.
Радж Четти – гений. Не верите мне? Поверьте Фонду Макартуров, который присудил ему в 2012 году свою «стипендию для гениев». Или профессиональному сообществу экономистов, присудившему ему в 2013 году медаль Джона Бейтса Кларка, которой награждается лучший экономист моложе сорока лет. Или правительству Индии, которое в 2015 году вручило ему награду Падма Шри – одну из высших в стране. Или экономисту Тайлеру Коуэну, который назвал Четти «самым влиятельным экономистом в мире из ныне живущих».
Так что да, практически все уверены, что Четти, получивший степень бакалавра в Гарвардском университете за три года, доктора философии – еще через три, сейчас попеременно преподающий то в Стэнфорде, то в Гарварде, – уникум. (Четти был моим преподавателем в аспирантуре в Гарварде.)
Чуть ранее Четти и группа ученых – в том числе Натаниэль Хендрен, Эммануэль Саез и Патрик Клайн – получили от Налогового управления США анонимизированные данные обо всех американских налогоплательщиках. Что еще важнее, Четти и его коллектив могли связать друг с другом налоговые декларации родителей и детей и таким образом выяснить, где люди провели каждый год своего детства и сколько они в конце концов стали зарабатывать взрослыми. Если ребенок проводил первые пять лет жизни в Лос-Анджелесе, а оставшуюся часть жизни – в Денвере, то Четти и его сотрудникам это было известно. Причем речь идет не о небольшой выборке населения, а обо всех американцах. В распоряжении исключительного ума оказался исключительный массив данных.
Как можно воспользоваться подобными данными обо всех американских налогоплательщиках, чтобы выяснить последствия жизни в том или ином районе? Наивный подход заключался бы в том, чтобы просто сравнить доход людей, выросших в разных местах. Но это привело бы нас к проблеме, которую мы уже обсуждали: корреляция не означает причинности.
Именно здесь в игру вступил ум – или, по мнению Фонда Макартуров, гений – Четти. Хитрость использованного его группой метода заключалась в том, чтобы сосредоточиться на конкретном и очень интересном подмножестве американцев – тех, которые в детстве переезжали. Поскольку весь набор данных был таким большим – помните, они рассматривали всех американских налогоплательщиков, – то и количество подобных людей было значительным.
Как же дети, переезжавшие в детстве, могут помочь установить причинно-следственные связи, относящиеся к проживанию в конкретном районе? Давайте подумаем, как это могло бы выглядеть.
Возьмем гипотетическую семью с двумя детьми, Сарой и Эмили Джонсон, и два города – Денвер и Лос-Анджелес. Предположим, что в нашем гипотетическом мире семья переехала из Лос-Анджелеса в Денвер, когда Саре было тринадцать лет, а Эмили восемь. Предположим далее, что Денвер лучше подходит для того, чтобы растить детей, чем Лос-Анджелес. Если дело обстоит именно так, мы должны ожидать, что Эмили достигнет в жизни больше, чем Сара, потому что проведет на пять лет больше в полезной для детей атмосфере Денвера.
Конечно, даже если Денвер в среднем действительно будет лучше подходить для того, чтобы растить детей, нет 100 %-ной гарантии, что Эмили с ее пятью дополнительными годами в Денвере покажет более высокие результаты в жизни. Возможно, у Сары есть какие-то преимущества, которые перевешивают меньшее количество лет, проведенных в Денвере. Возможно, Сара была более умной и превзошла сестру[80] благодаря интеллекту.
Если рассматривать десятки тысяч переехавших – что возможно, располагая данными обо всех американских налогоплательщиках, – то разница в способностях потомства будет взаимно компенсироваться. В определенном смысле всякий раз, когда семья минимум с двумя детьми переезжает из одной местности в другую, они производят тест двух районов. Если местность, откуда они уехали, лучше подходила для воспитания детей, можно ожидать, что старший ребенок окажется успешнее, потому что провел там больше времени. Если же более подходящей была та местность, куда они переместились, то можно ожидать больших успехов от младшего, потому что там он провел больше времени. Повторюсь, это будет верно не всякий раз.
Но если в вашей выборке достаточно переехавших и некоторые районы действительно лучше с точки зрения воспитания ребенка, вы должны будете увидеть систематическую разницу в результатах старших и младших, если семья уехала из этого района или приехала в него.
Кроме того, поскольку у детей одни и те же родители и, как можно ожидать, одинаковые генетически обусловленные способности, мы можем быть уверены, что стойкие отличия в результатах старших и младших обусловлены именно местностью. Умножьте это соображение на весь массив данных об американских налогоплательщиках, прибавьте кое-какую остроумную математику – и получите меру ценности всех жилых районов в Соединенных Штатах.
Итак, что же выяснили ученые? Давайте начнем с их анализа мегаполисов. Некоторые из них устойчиво дают детям преимущество. Если ребенок переезжает в правильную местность, он с меньшей вероятностью оказывается в тюрьме. Он получает более качественное образование. Он зарабатывает больше денег. Четти и его соавторы выяснили, что детство, проведенное в лучших городах (давайте назовем их супермегаполисами), может повысить доход во взрослой