Джона Лерер - Как мы принимаем решения
«Скорее всего, в 99,9 % случаев вы даже не подозреваете о выбросе дофамина, — говорит Рид Монтагью, профессор нейробиологии в университете Бейлор. — Но при этом в 99,9 % случаев вы руководствуетесь информацией и эмоциями, которые он передает в другие части мозга».
Теперь мы можем приблизиться к пониманию удивительной мудрости наших эмоций. Активность наших дофаминовых нейронов показывает, что чувства не являются просто отражениями жестко прописанных животных инстинктов. Эти дикие лошади вовсе не своевольны. Напротив, корни человеческих эмоций кроются в предсказаниях очень легко адаптирующихся клеток мозга, которые постоянно меняют свои настройки для того, чтобы лучше отражать реальность. Каждый раз, когда вы совершаете ошибку или сталкиваетесь с чем-то новым, ваши мозговые клетки начинают меняться. Наши эмоции крайне эмпиричны.
Рассмотрим, к примеру, эксперимент Шульца. Когда он изучал своих жаждущих сока обезьян, он обнаружил, что всего лишь после нескольких экспериментальных попыток нейроны обезьян прочно усвоили, когда ожидать награды. Нейроны достигли этого, непрерывно анализируя новую информацию и превращая негативное чувство в полезный урок. Если сок не поступал, дофаминовые клетки адаптировали свои прогнозы. Обманешь меня единожды — стыд тебе и позор. Обманешь меня дважды — стыд и позор моим дофаминовым нейронам.
Тот же процесс постоянно происходит в мозгу человека. Укачивание в транспорте в значительной степени является результатом ошибочных дофаминовых предсказаний: возникает конфликт между типом происходящего движения — например, непривычный наклон лодки — и типом ожидаемого движения (твердая, неподвижная земля). В этом случае результатом могут стать тошнота и рвота. Но спустя немного времени дофаминовые нейроны начинают исправлять свои модели движения, именно поэтому морская болезнь обычно бывает временной. После нескольких ужасных часов дофаминовые нейроны корректируют свои предсказания и обучаются ожидать легкого покачивания морской волны.
Полное разрушение дофаминовой системы — при котором нейроны не способны исправлять свои ожидания с учетом реальности — может привести к психическому заболеванию. Корни шизофрении пока что остаются тайной, но одна из причин, видимо, состоит в избытке определенных типов дофаминовых рецепторов. Это делает дофаминовую систему гиперактивной и неконтролируемой, так что нейроны шизофреника не могут делать убедительные предсказания или соотносить свое возбуждение с событиями в окружающем мире. (Большинство нейролептических препаратов уменьшают активность дофаминовых нейронов.) Так как шизофреники не могут распознавать реально существующие схемы, они начинают воображать неверные. Поэтому шизофреники часто становятся параноиками и оказываются подвержены совершенно непредсказуемым перепадам настроения. Их эмоции утрачивают связь с событиями в реальном мире.
Деструктивные симптомы шизофрении помогают осознать необходимость и точность дофаминовых нейронов. Когда эти нейроны работают должным образом, они служат ключевым источником мудрости. Эмоциональный мозг без труда понимает, что происходит и как извлечь из ситуации максимальную выгоду. Каждый раз, когда вы испытываете радость или разочарование, страх или счастье, ваши нейроны занимаются перестройкой своей цепи, анализируя, какие сенсорные сигналы предшествовали эмоциям. Этот урок затем помещается в память, так что в следующий раз, когда вам придется принимать решение, ваши мозговые клетки будут наготове. Они уже научились предсказывать, что же произойдет дальше.
2Нарды — старейшая игра в мире. Впервые в нее начали играть в древней Месопотамии, около 3000 лет до нашей эры. Она была популярным развлечением в Древнем Риме, ее воспевали персы и запрещал французский король Людовик IX как побуждающую к незаконным азартным играм. В семнадцатом веке царедворцы Елизаветы I систематизировали правила игры, и с тех пор нарды мало изменились.
Однако того же нельзя сказать об игроках. Одним из лучших игроков в нарды в мире сейчас является компьютерная программа. В начале 1990-х годов Джеральд Тезауро, программист из компании IBM, начал разрабатывать новый вид искусственного интеллекта (ИИ). В то время большинство программ ИИ основывались на примитивных вычислительных возможностях микросхем. Этот подход был использован в Deep Blue, мощном суперкомпьютере IBM, сумевшем в 1997 году побить шахматного гроссмейстера Гарри Каспарова. Deep Blue мог анализировать более двухсот миллионов возможных шахматных ходов в секунду и, таким образом, имел возможность постоянно выбирать оптимальную шахматную стратегию. (Мозг Каспарова, напротив, мог просчитывать лишь около пяти ходов в секунду.) Но вся эта стратегическая огневая мощь требовала большого количества энергии: во время шахматного матча Deep Blue был пожароопасен и требовал специального охлаждающего оборудования, чтобы не загореться. Между тем Каспаров даже практически не вспотел. Дело в том, что человеческий мозг — прекрасный образец производительности: даже когда он погружен в глубочайшие раздумья, кора головного мозга потребляет меньше энергии, чем электрическая лампочка.
В то время как массовая пресса превозносила потрясающее достижение Deep Blue — машина переиграла самого великого шахматиста в мире, — Тезауро был озадачен ограниченностью ее возможностей. Машина, способная думать в миллионы раз быстрее, чем ее человеческий противник, с трудом выиграла матч. Тезауро понял, что проблемой всех стандартных программ ИИ, даже таких блестящих, как у компьютера Deep Blue, является негибкость. Большая часть интеллекта Deep Blue была заимствована у других шахматных гроссмейстеров, чья мудрость была оцифрована и заложена в его программу. (Программисты из IBM также изучили предыдущие шахматные матчи Каспарова и настроили программу на использование его повторяющихся стратегических ошибок.) Но сама машина не могла учиться. Вместо этого она принимала решения, предсказывая вероятные последствия нескольких миллионов различных шахматных ходов. Ход с максимальной предсказанной «ценностью» был тем, который компьютер в результате и совершал. Для Deep Blue игра в шахматы была просто бесконечной серией математических задач.
Конечно, такой вид искусственного интеллекта не является точной моделью человеческого сознания. Каспаров смог соревноваться на том же уровне, что и Deep Blue, хотя его мозг обладал гораздо меньшей вычислительной мощностью. Удивительная догадка Тезауро состояла в том, что нейроны Каспарова были так эффективны потому, что они сами себя натренировали. Их усовершенствовал многолетний опыт выявления едва различимых пространственных шаблонов на шахматной доске. В отличие от Deep Blue, анализировавшего каждый возможный ход, Каспаров мог сразу взвесить возможные стратегические варианты и сосредоточить свои умственные силы на оценке только самых перспективных из них.
Тезауро решил создать программу ИИ, которая бы действовала как Гарри Каспаров. Для своей модели он выбрал нарды (backgammon) и назвал программу TD-Gammon. (TD, temporal difference, означает «временное различие»). Deep Blue был изначально запрограммирован на игру в шахматы, а программа Тезауро начинала с чистого листа. Сначала ее ходы были совершенно случайными. Она проигрывала каждый матч и делала глупые ошибки. Но компьютер недолго оставался новичком — TD-Gammon был запрограммирован так, чтобы учиться на собственном опыте. Днем и ночью он играл в нарды сам с собой, терпеливо выясняя, какие ходы наиболее эффективны. После сотен тысяч партий TD-Gammon мог выиграть у лучших человеческих игроков в мире.
Как машина превратилась в эксперта? Хотя математические подробности программы Тезауро утомительно сложны, базовый подход крайне прост[13]. TD-Gammon порождал набор предсказаний о том, как будет развиваться игра в нарды. В отличие от Deep Blue, это компьютерная программа не исследовала каждое возможное перемещение. Вместо этого она действовала как Гарри Каспаров и порождала предсказания, основываясь на своем прошлом опыте. Программное обеспечение сравнивало эти предсказания с реальным ходом игры. Выявленные несоответствия становились материалом для обучения, и программа стремилась постоянно сокращать «ложный сигнал». В результате точность предсказаний постоянно росла, и, следовательно, стратегические решения программы становились все более эффективными и разумными.
В последние годы та же стратегия использовалась для решения всевозможных сложных задач от программирования работы групп лифтов в небоскребах до составления расписания полетов. «Эти самообучающиеся программы доказали свою полезность для решения любых задач с, казалось бы, бесконечным количеством возможностей, — говорит Рид Монтагью. — Ведь лифты и самолеты можно распределить в самых разных последовательностях». Самое главное различие между программами обучения с подкреплением и традиционными подходами состоит в том, что эти новые программы сами находят оптимальные решения. Никто не говорит компьютеру, как организовать работу лифтов. Вместо этого он систематически обучается методом проб и ошибок, пока после определенного числа проб лифты не начинают ездить с максимально возможной эффективностью. Ошибки, казавшиеся неизбежными, успешно устранены.