Kniga-Online.club
» » » » Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Читать бесплатно Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков. Жанр: Прочая околокомпьютерная литература / Программирование год 2004. Так же читаем полные версии (весь текст) онлайн без регистрации и SMS на сайте kniga-online.club или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:
AutoML к глубокому обучению рассматривалась специалистами как перспектива сравнительно отдалённого будущего. Однако начиная с 2016 г. исследователи Google и DeepMind опубликовали сразу несколько серьёзных работ[3263],[3264], [3265], [3266], [3267], [3268],[3269], [3270], посвящённых этому направлению. Сегодня исследованиями в области NAS занимаются исследователи и других технологических компаний, таких как Samsung[3271], [3272], Microsoft[3273], Facebook[3274], [3275] и Bosch[3276]. Не отстают и университетские[3277] учёные, особенно исследователи из Китая[3278], [3279], [3280]. Собственным инструментом для поиска нейросетевых архитектур обзавелась и одна из популярных библиотек для глубокого обучения — Keras. Этот инструмент, как несложно догадаться, получил наименование Auto-Keras[3281].

За последние годы было создано несколько специальных наборов тестов для оценки возможностей систем поиска эффективных нейросетевых архитектур и гиперпараметров их обучения, например: NAS-bench-101[3282], [3283], NAS-Bench-201[3284], NAS-Bench-360[3285], NAS‑Bench‑x11[3286], HW-NAS-Bench[3287], NAS-Bench-ASR[3288], NATS-Bench[3289], NAS-HPO-Bench[3290] и NAS-HPO-Bench-II[3291]. Наверное, самым большим триумфом этого подхода на сегодняшний день стало создание[3292], [3293] семейства свёрточных нейросетевых архитектур EfficientNet, которые позволили достичь большей точности и эффективности, чем предыдущие свёрточные архитектуры. В частности, в 2019 г. архитектура EfficientNet-B7 позволила при классификации изображений ImageNet достичь[3294] точности top-1 в 84,3% и точности top-5 в 97,0%, будучи в 8,4 раза меньше и в 6,1 раза быстрее при выполнении, чем лучшая из предшествовавших архитектур (AmoebaNet, обученная с применением библиотеки GPipe)[3295]. В том же году исследователям из Google Brain при помощи более хитрой процедуры обучения, задействующей две нейросети («ученика» и «учителя»), удалось «выжать» из архитектуры EfficientNet-L2 при классификации изображений ImageNet значения точности top-1 и top-5, равные 90,2 и 98,8% соответственно[3296].

Однако, несмотря на столь внушительные успехи, в области поиска нейросетевых архитектур существует ещё множество открытых вопросов. Как сделать процесс поиска наиболее вычислительно эффективным? Эксперименты в этой области пока что требуют значительных вычислительных ресурсов. Можно ли повторить успехи NAS в других областях, не связанных с обработкой изображений, и какие алгоритмы позволят добиться наибольшей эффективности в этом направлении? И наконец, нельзя ли создать универсальные методы, позволяющие осуществлять эффективный поиск нейросетевых архитектур для решения произвольных задач?

Все эти проблемы изучаются в рамках области машинного обучения, получившей название «метаобучение» [meta-learning]. Основная цель метаобучения — улучшение производительности существующих методов машинного обучения; по сути, перед метаобучением стоит задача «научиться учиться» [learn to learn].

Другое важное направление исследований — перенос обучения (знаний) [transfer learning] (мы коротко затрагивали эту тему, рассуждая о возможностях импульсных нейронных сетей). Эта область занимается поиском методов, позволяющих использовать знания, полученные при решении одной задачи, для решения других, сходных с ней. Например, модель, обученная различать различных животных на изображениях, может быть использована для распознавания пород собак. Одной из разновидностей переноса знаний является дообучение, или тонкая настройка [fine-tuning], модели с применением сравнительно небольших датасетов, содержащих примеры решения целевых задач. В некотором роде триумфом переноса обучения стало появление предобученных моделей для обработки естественного языка, основанных на трансформерных архитектурах, — мы подробно обсуждали этот вопрос в ходе рассказа о моделях семейства GPT. Проклятием переноса обучения является проблема «катастрофического забывания» [catastrophic forgetting][3297], которая заключается в том, что в процессе доучивания модель быстро теряет полученные ранее знания. Чтобы не допустить этого, доучивание обычно ограничивают небольшим количеством эпох обучения, а также используют низкие значения скорости обучения. Однако это делает сам процесс доучивания вычислительно более дорогим, менее эффективным и менее стабильным. Для борьбы с катастрофическим забыванием предложен ряд весьма остроумных техник, таких как, например, «эластическая консолидация весов» [elastic weights consolidation][3298], [3299] или «ослабление скоростей весов» [weight velocity attenuation][3300], однако они нередко связаны с существенными дополнительными затратами (вычислительными или в виде использования дополнительного объёма памяти).

Хотя в наши дни нейросетевые модели обычно обучают при помощи различных методов градиентного спуска, исследователи задумываются над тем, чтобы использовать более «умные» алгоритмы для подстройки весов нейронных сетей. Теоретически, «изучив» множество сессий обучения, некоторая модель может научиться более эффективно модифицировать веса нейронной сети, чтобы достигать меньшего значения ошибки за меньшее число шагов обучения. Решением этой задачи по «воспитанию воспитателя» в настоящее время занимается ряд исследователей, и уже получены первые обнадёживающие результаты[3301] в этой области. Не исключено, что развитие именно этого направления позволит совершить очередной прорыв в области машинного обучения в ближайшем будущем.

Возможно, новые исследования позволят найти замену даже такому, казалось бы, фундаментальному элементу нейросетевых технологий, как метод обратного распространения ошибки. Авторы статьи «Градиенты без обратного распространения ошибки» (Gradients without Backpropagation)[3302], вышедшей в свет в начале 2022 г., показывают в своём исследовании, что градиенты весов нейронной сети можно рассчитывать при помощи более быстрого алгоритма, который авторы назвали «прямым градиентом» [forward gradient].

Рост интереса к большим языковым моделям вслед за громким успехом таких проектов, как GPT-3 и ChatGPT, привёл к расширению исследований в этой и смежных областях — мы говорили в разделах 6.6.5 и 6.6.6 о многих актуальных вызовах, стоящих перед создателями будущих LLM. Одной из наиболее амбициозных стратегических целей здесь является выстраивание «мостика» от современных LLM и MLLM к будущим системам общего искусственного интеллекта. Развитие моделей, способных строить цепочки и деревья рассуждений, ставит вопрос о возможности применения продвинутых языковых моделей к задачам стратегического планирования. Ни для кого не секрет, что теория игр, и в частности деревья (и графы) возможных решений, активно использовалась в стратегическом планировании ещё в годы холодной войны (Первой холодной войны?).

Рис. 178. Пример дерева возможных альтернатив для принятия стратегического решения

В наши дни важным инструментом для создания и анализа таких деревьев могут стать большие языковые модели. Поскольку они в некоторой мере уже сегодня являются пусть и упрощёнными, но моделями мира, их можно использовать как для генерации возможных альтернатив, так и для оценки всей совокупности совершённых акторами действий в терминальных узлах дерева. Таким образом, деревья стратегических решений могут стать куда более сложными и разветвлёнными. Все эти идеи наводят на мысль о возможности создания обобщающей теории применения фундаментальных моделей в решении сложных интеллектуальных задач. Например, на

Перейти на страницу:

Сергей Сергеевич Марков читать все книги автора по порядку

Сергей Сергеевич Марков - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки kniga-online.club.


Охота на электроовец. Большая книга искусственного интеллекта отзывы

Отзывы читателей о книге Охота на электроовец. Большая книга искусственного интеллекта, автор: Сергей Сергеевич Марков. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор kniga-online.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*