Ник Бостром - Искусственный интеллект
Системе контроля над семантической информацией предписано фиксировать все вышеописанные интенции ИИ, чтобы они были прозрачны для программистов или устройств автоматической регистрации. Правда, для некоторых типов архитектуры ИИ осуществление такого контроля может быть невозможно. (Например, непрозрачными являются некоторые нейронные сети, поскольку информация в них представляется целостно и такими способами, которые не всегда соответствуют человеческим понятиям.) По этой причине лучше избегать использовать такие архитектуры
Следует подчеркнуть, что значимость «растяжек» определяется не только механизмом их действия, но и тем, как окружающие реагируют на сигналы аппаратуры и факты регистрации нарушений — в этом случае поведение людей играет критически важную роль. Руководители проекта и разработчики, жаждущие добиться успеха, чаще всего просто включают систему снова или проводят чисто формальную модификацию программного кода, причем иногда делают что-то такое, чтобы в следующий раз «растяжка» промолчала. Конечно, при таком отношении вряд ли удастся обеспечить безопасность даже при условии безотказной работы самих «растяжек».
Методы выбора мотивации
Методы выбора мотивации призваны формировать мотивы поведения сверхразума, чтобы не допустить нежелательных результатов. С их помощью — за счет конструирования системы мотивации агента и его конечных целей — можно создать сверхразум, который не захочет использовать свое решающее стратегическое преимущество против человека. Сверхразумный агент всегда стремится добиться своих конечных целей, и если он выбирает путь ненанесения вреда (имеется в виду и «локальный вред», и «глобальный ущерб»), то, скорее всего, не станет его причинять.
Методы выбора мотивации включают: метод точной спецификации — однозначная формулировка цели и системы правил, которым нужно следовать; метод косвенной нормативности — процедура настройки программы ИИ, чтобы он мог самостоятельно определять приемлемую систему ценностей в соответствии с некоторыми подразумеваемыми условиями, то есть сформулированными неявным, или косвенным, образом; метод приручения — такая компоновка программы, которая приведет ИИ к выбору умеренных, не слишком претенциозных конечных целей; метод приумножения — выбор агента, уже обладающего подходящими мотивами, с тем чтобы расширить его когнитивные способности до уровня сверхразумных, причем с обязательным контролем над его мотивационной системой, которая не должна претерпеть никаких изменений в процессе совершенствования. Последний метод представляет собой вариант, альтернативный первым трем, в которых система мотивации ИИ формируется с чистого листа. Рассмотрим последовательно все методы выбора мотивации.
Метод точной спецификации
Точная спецификация — наиболее прямолинейное решение проблемы контроля; сам подход опирается, с одной стороны, на систему четко прописанных правил; с другой — на принцип консеквенциализма[21]. Метод точной спецификации предполагает попытку дать однозначное определение системе ценностей и системе правил, благодаря которым даже свободный в своих действиях сверхразумный агент поступал бы в интересах принципала и без риска для остальных людей. Однако этот метод может столкнуться с непреодолимыми препятствиями, связанными, во-первых, с проблемой формулировки обоих понятий («правило» и «ценность»), которыми должен руководствоваться ИИ, во-вторых, с проблемой представления этих двух понятий («правило» и «ценность») для записи задания в виде машиночитаемых кодов.
Проблемы метода точной спецификации с точки зрения системы прописанных правил лучше всего проиллюстрировать такой классической концепцией, как «Три закона робототехники». Обязательные правила поведения для роботов были окончательно сформулированы писателем-фантастом Айзеком Азимовым в рассказе, опубликованном в 1942 году22.
Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред.
Робот должен повиноваться всем приказам, которые дает человек, кроме тех случаев, когда эти приказы противоречат первому закону;
Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит первому и второму законам.
К стыду нашего вида, эти правила оставались неизменными более полувека, несмотря на очевиднейшие пробелы, которые, кстати, видел и сам Азимов, на что указывают многие его произведения (наверное, писатель специально изложил законы в таком расплывчатом виде, оставив для себя и своих героев шанс каждый раз трактовать их несколько иначе, а заодно и нарушать разными занимательными способами — довольно плодотворная почва для дальнейшего развития художественной темы)23.
Бертран Рассел, много лет трудившийся над основами математики[22], как-то заметил: «…Степень нечеткости не осознается вплоть до попытки нечто прояснить, а все точное столь далеко от всего того, о чем мы обычно мыслим, что нельзя и на мгновение предположить, что же мы на самом деле имеем в виду, когда выражаем наши мысли»[23]24. Трудно найти лучшего комментария к проблемам, относящимся к методу точной спецификации. Возьмем, например, возможное объяснение первого закона Азимова. Значит ли он, что робот должен минимизировать вероятность нанесения вреда любому человеку? В этом случае остальные законы становятся ненужными, поскольку у ИИ всегда есть возможность совершить некоторое действие, которое будет иметь хотя бы микроскопическую вероятность причинить вред кому-то из людей. Как роботу сопоставить высокий риск причинения вреда нескольким людям и небольшой риск причинения вреда множеству людей? Другой мучительный вопрос: как нам определить само понятие «вред»? На каких весах взвесить разницу между вредом, причиненным физической болью, вредом, нанесенным нашему вкусу архитектурным уродом, и вредом, приносимым социальной несправедливостью? Будет ли нанесен вред садисту, которому не дадут мучить его жертву? А как мы определим понятие «человек»? Почему не принимаются во внимание остальные обладающие разными добродетелями существа, скажем, животные, наделенные чувствами, и системы машинного интеллекта? Чем больше думаешь над этим, тем больше вопросов возникает.
Самым близким аналогом системы правил, регулирующих действия сверхразума, — аналогом, с которым мы сталкиваемся довольно часто, — является правовая система. Но системы правосудия, во-первых, создавались в течение долгого времени методом проб и ошибок, во-вторых, они регулируют жизнь человеческого общества, меняющегося сравнительно медленно, в-третьих, при необходимости какой-то законодательный акт всегда можно подправить или радикально пересмотреть. Но важнее всего другое: когда суду — инстанция, которой единственной принадлежит право осуществлять правосудие, — приходится иметь дело с логически возможными интерпретациями законов, явно непредусмотренными законодателями, то и судьи, и присяжные призывают свой здравый смысл и начинают руководствоваться моральными нормами. Что касается нашей проблемы, то, вероятно, человек просто не в состоянии вразумительно и скрупулезно прописать правила — правила, которые должны быть организованы в весьма сложную систему; правила, которыми сам человек мог бы уверенно оперировать буквально с первого раза; правила, на которые можно было бы опереться при любых обстоятельствах25.
Теперь посмотрим на метод точной спецификации с точки зрения принципа консеквенциализма — и увидим те же самые проблемы. Это относится даже к ситуации, когда ИИ предназначен служить будто бы простым целям, например отобрать для себя несколько постулатов классического утилитаризма[24] и сделать все, чтобы воплотить их «в жизнь». Возьмем совсем конкретную задачу, которая могла бы быть поставлена перед ИИ: «Рассчитать ожидаемое соотношение удовольствия и страдания в мире и определить максимальное значение этой величины» — действительно, задание не слишком сложное. Теперь, чтобы условие было безотказно выполнено, следует написать исходный код. Однако прежде потребуется дать точное определение понятиям «удовольствие» и «страдание» — то есть программисту придется поднять целый пласт вечных вопросов философии, над которыми бились лучшие умы человечества. Но дело этим не ограничится: написанный на чьем-то родном языке «трактат» следует тем или иным способом переложить на язык программирования.
Малейшая ошибка, допущенная либо в определении почти философских понятий либо при записи исходного кода, повлечет за собой катастрофические последствия. Рассмотрим пример, когда конечная цель определена как «стать навсегда счастливым». Перед нами этакий ИИ-гедонист, жаждущий преобразовать всю материю Вселенной в гедониум — некую субстанцию, которая обеспечивает выработку оптимального наслаждения. Но чтобы приблизиться к своей цели, ИИ потребуется помимо гедониума еще одна субстанция, о которой мы не раз говорили выше, — это компьютрониум, обеспечивающий максимальную вычислительную мощность. С его помощью ИИ заселит Вселенную множеством цифровых имитационных моделей мозга, пребывающих в состоянии эйфории, но напрочь лишенных любых умственных способностей — им будет отказано в этом за ненадобностью, поскольку интеллект несуществен для опыта наслаждения. Ради максимизации эффективности ИИ будет использовать любые варианты сокращения вычислений, лишь бы они не навредили формированию ощущения удовольствия. Причем все делается в полном соответствии с точной спецификацией, в которой закодировано определение понятия «счастье». Поэтому ИИ обязательно должен оставить имитационной модели электронную схему вознаграждения — что-то вроде центра удовольствия в биологическом мозгу. Однако будут исключены такие функции психики, как память, чувственное восприятие, способность к целенаправленной деятельности и возможность общения на языке. Преследуя собственные интересы, ИИ создаст самые примитивные имитационные модели мозга. Он снабдит их грубым функциональным уровнем с низкой степенью детализации; он даже пренебрежет нейронными процессами низкого уровня; заставит их прибегать к услугам таблиц поиска, то есть заменит часто повторяющиеся вычисления на операции простого поиска; хуже того, он задействует общий вычислительный механизм, рассчитанный на множество имитационных моделей. И все это «вытекает из базиса» (употреблю здесь волапюк псевдофилософов). На что не пойдешь ради удовольствия — даже на такие уловки, которые придумал наш ИИ-гедонист, лишь бы преумножить в немыслимое количество раз ту немаленькую степень удовлетворения, которую он мог бы выжимать из имеющегося у него запаса ресурсов. И нет никакой уверенности, окажется ли это оправданным. Более того, если действия ИИ не будут отвечать ни критериям определения понятия «счастье», ни самому процессу формирования ощущения удовольствия, то в результате предпринятой оптимизации он может вместе с водой выплеснуть и ребенка — то есть избавляясь от всего несущественного по условиям конечной цели или по собственным соображениям, ИИ в запале выбросит то, что неотъемлемо принадлежит системе человеческих ценностей. Вселенная наполнится не ликующими от счастья имитациями-гедонистами, а унылыми вычислительными схемами, бессмысленными и ни к чему не пригодными. Тогда вся затея «стать навсегда счастливым» сведется всего-навсего к изображению счастья, своего рода эмотикону, электронному символу наших эмоций, — и отксерокопированные триллион триллионов раз смайлики облепят все множество галактик.