ИИ-2041. Десять образов нашего будущего - Кай-фу Ли
ИИ обучается путем простого «спаривания» каждого из миллионов предложений, скажем, на английском языке с его профессионально переведенным аналогом на французском. Также обучение с учителем может быть применено для распознавания речи (преобразование устной речи в текст), оптического распознавания символов (преобразование рукописного ввода или изображений в текст) или синтеза речи (преобразование текста в речь).
Во всех задачах распознавания естественного языка, где применимо обучение с учителем, ИИ уже сейчас превосходит большинство людей.
При более сложном применении ОЕЯ происходит переход от распознавания к пониманию. Чтобы совершить этот скачок, слова должны быть реализованы в действиях. Например, виртуальная ассистентка Алекса, услышав команду сыграть Баха, должна понять: вы хотите, чтобы она воспроизвела что-нибудь из классических произведений, написанных композитором Иоганном Себастьяном Бахом. А в ответ на фразу «я хочу вернуть деньги» чат-бот в программе для е-коммерции, скорее всего, посоветует, как вернуть купленный товар, а затем получить обратно уплаченное за него.
Создание таких «понимающих» предметно-ориентированных ОЕЯ-приложений посредством обучения с учителем требует огромных затрат времени. Подумайте только, каким количеством фраз люди могут выразить, по сути, одно и то же — вместо, например, «я хочу вернуть деньги» человек произнесет «этот тостер неисправен», и с человеческой точки зрения это будет означать то же самое!
В данных для такого обучения с учителем должны быть представлены все мыслимые вариации в диалоге, которые только могут возникнуть при пояснении и уточнении. Причем не только представлены, но и определенным образом размечены человеком, чтобы обеспечить ИИ достаточными подсказками для обучения.
Разметка данных для обучения с учителем систем понимания языка на протяжении двадцати лет является мощной индустрией. Такие данные в автоматизированной системе обслуживания клиентов авиакомпании выглядят примерно так:
[Намерение купить билет] я хочу [метод: вылететь] из [место вылета: Бостон] в [время вылета: 8:38 утра] и прибыть в [пункт назначения: Денвер] в [время прибытия: 11:10 утра].
Но это самый простой пример. А теперь представьте, каково будет разметить сотни тысяч фраз при таком уровне детализации. Как бы вы ни старались, вам все равно не удастся охватить все возможные варианты даже в рамках относительно узкой сферы действий вроде бронирования авиабилетов.
В течение многих лет понимание языка при помощи технологий ОЕЯ работало, только если вы были готовы потратить массу времени на очень узкую область применения (то есть речь идет о предметно-ориентированном ОЕЯ с учителем для одной конкретной сферы).
Грандиозная цель — понимание языка на человеческом уровне — оставалась недостижимой: мы не знали, как это выглядит. И мы не знали, как построить обучение с учителем в применении к ОЕЯ, задавая выход для каждого входа. Однако даже если бы и знали, разметка данных на всех языках мира все равно оказалась бы задачей непомерно трудоемкой и дорогостоящей.
САМООБУЧЕНИЕ ДЛЯ ОЕЯ
Не так давно возник простой, но элегантный подход — самообучение. То есть ИИ сам обучает себя, ему не требуется никакой сделанной человеком разметки, и это позволяет обойти «узкое место», которое мы только что обсудили. Этот подход называется «предсказание последовательности».
Для обучения такой нейронной сети входом является просто последовательность слов текста некоторой длины, а выходом — слова продолжения для этой последовательности. Например, для входной последовательности «восемь десятков и семь лет назад» нейросеть учится генерировать выход «наши отцы образовали на этом континенте новую нацию»[38]. Вероятно, вы сегодня каждый день пользуетесь простой версией этой технологии — она реализована в функции умного письма Gmail или в функции подсказки в поиске Google.
Специалисты Google в 2017 году создали новую архитектуру нейросети — трансформер. Это модель машинного обучения, которая задействует избирательные механизмы памяти и внимания. Они способны выборочно обращать внимание на то, что является «важным и актуальным» в последовательности[39]. Так, в примере с Геттисбергским обращением Линкольна нейронная сеть, опираясь на механизм внимания, понимает значение слова «десятков» в данном контексте.
При достаточном количестве данных подобная продвинутая модель глубокого обучения может, по сути, обучить себя языку с нуля. Она не использует наши, человеческие понятия вроде спряжения глаголов и грамматики, а опирается на «самостоятельно изобретенные» конструкции и абстракции, полученные из данных и встроенные в гигантскую нейронную сеть. Обучающие данные для этих систем являются абсолютно естественным материалом — текстами, не требующими никакой внешней узкоспециализированной разметки, описанной выше.
Имея в распоряжении достаточно естественных данных и достаточные вычислительные мощности, такая система может научиться и дальше самостоятельно определять, например, время прибытия и отправления транспорта (при бронировании билетов), а также многое другое.
Вскоре после упомянутого прорыва Google OpenAI (исследовательская лаборатория, созданная Илоном Маском с коллегами) выпустила более известное расширение — третье поколение алгоритма обработки естественного языка GPT-3 (Generative Pre-trained Transformer — «генеративные предварительно обученные трансформеры»). Прорыв произошел в 2020 году.
GPT-3 — это гигантский движок по предсказанию текстовых последовательностей. Он обучен анализировать язык на основе огромной модели, включающей в себя в себя почти все мыслимые концепции. Используя один из мощнейших суперкомпьютеров, GPT-3 обучили на более чем 45 терабайтах текста (человеку, чтобы прочесть их, потребовалось бы полмиллиона жизней). С ростом количества текстов, доступных в сети, эта цифра (500 тысяч человеческих жизней) ежегодно возрастает в десять раз, расширяя возможности технологии поистине невероятными экспоненциальными темпами.
После очень долгого и дорогостоящего процесса обучения GPT-3 была создана гигантская модель со 175 миллиардами параметров. Если загрузить в алгоритм GPT-3 какую-либо последовательность слов, он выдаст то, что, по его мнению, должно следовать за этими словами. Благодаря огромным обучающим данным GPT-3 знает, что вопрос обычно стимулирует ответ.
Например, если сказать GPT-3: «Печь тяжелее кошки. Океан тяжелее частицы пыли. Что тяжелее, тостер или карандаш?», GPT-3 ответит правильно — «тостер». Первые два предложения помогают GPT-3 сосредоточиться на конкретном значении слова «тяжелее», а последнее указывает на то, что ему задают вопрос. Причем если ввести только последнюю фразу, GPT-3 все равно ответит, хоть и с большей вероятностью ошибки.
GPT-3 кардинально отличается от предметно-ориентированной ОЕЯ. В отличие от более ранних технологий с более узкой функциональностью, GPT-3 может достаточно успешно выполнять разнообразные задачи: сочинять стихи, делать философские выводы, выдавать пресс-релизы, составлять технические инструкции и даже имитировать стиль практически любого писателя.
Так, один репортер попросил GPT-3 написать стихотворение об Илоне Маске в стиле самого продаваемого англоязычного детского писателя доктора Сьюза, по книгам которого учат читать, и вот что вышло[40]:
Но потом он вдруг заспешил,