Kniga-Online.club
» » » » Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун

Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун

Читать бесплатно Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун. Жанр: Зарубежная образовательная литература / Науки: разное год 2004. Так же читаем полные версии (весь текст) онлайн без регистрации и SMS на сайте kniga-online.club или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:
сочетание которых еще более невероятно. Ричард Докинз, британский биолог-эволюционист, связывает их с религиозными доктринами. Представляется простым дать объяснение Вселенной типа «ее создал Бог». Но гипотеза о Боге ведет к появлению сверхсложной теории (поскольку Бог всемогущ, то Он и бесконечно сложен), которая принципиально не поддается опровержению.

Вспоминается математик Пьер-Симон де Лаплас, которого после публикации его книги Mécanique Céleste («Небесная механика») Наполеон спросил: «Неужели вы даете законы всего творения и ни разу в своей книге не упоминаете о существовании Бога?» – «Сир, я не нуждался в этой гипотезе», – ответил Лаплас.

Протокол обучения

По стандартному протоколу обучение машины проходит в три этапа. Цель состоит в том, чтобы определить наиболее эффективную модель для определенной задачи. Чтобы выбрать модель, то есть максимально ограниченный класс функций, необходимо измерить ее способность прогнозировать, то есть оценить функцию стоимости на примерах, которые она не видела во время обучения. Данные примеры составляют набор для проверки.

Допустим, существует 10 000 обучающих пар x, y. Мы обучаем модель на половине из этих примеров или 5000 пар x, y: это этап, в котором функция машины должна настроить свои параметры так, чтобы полученные выходы приблизительно соответствовали запрошенным. Затем функция стоимости минимизируется. Ошибка, вычисленная на этом наборе, и есть ошибка обучения.

Чтобы оценить эффективность системы, обученной таким образом, и убедиться, что машина не только запомнила примеры, но и хорошо усвоила свою задачу, и что она может обрабатывать примеры, которые она никогда не видела, необходимо измерить ошибки на 2500 других парах x, y: это ошибка проверки.

Мы повторяем эти операции с разными моделями, то есть с разными семействами функций (например, многочленом 1-й степени, затем 2-й, затем 3-й или берем все более крупные нейронные сети). Затем остается тот, который производит наименьшую ошибку проверки.

Наконец, мы измеряем погрешность модели на оставшихся 2500 примерах. Это и есть ошибка теста. Зачем измерять такую ошибку теста? Почему бы просто не использовать ошибку проверки? Поскольку ошибка проверки всегда будет чересчур оптимистичной: ведь мы выбрали данную модель именно потому, что ее ошибка проверки была самой низкой. Это, в сущности, – ее обучение на проверочном наборе. Чтобы правильно оценить качество системы перед развертыванием, лучше поместить ее в реальную ситуацию и измерить ее эффективность на примерах, не влиявших на процесс обучения.

«Необходимый компромисс» Вапника

Слишком простая модель не может смоделировать много обучающих данных (возвращаясь к нашим примерам, линия не может проходить через большое количество точек, если они не выровнены). И наоборот, если модель сложная (многочлен 1000-й степени или большая нейронная сеть), она «выучит» обучающий набор, но ее способность к обобщению не будет приемлемой. Функция оказывается настолько гибкой, другими словами, она так сильно колеблется между точками, что потребуется гораздо больше обучающих примеров, чтобы она перестала точно проходить через все точки, чтобы было меньше колебаний, и чтобы она смогла начать делать верные прогнозы по новым вопросам. Другими словами, как только она не сможет больше запоминать обучающие точки, она тут же начнет усваивать реальные, базовые закономерности. Таким образом, между объемом данных и сложностью модели существует определенный баланс.

Представим, что у нас есть 10 точек обучения, как показано на рис. 4.10. Если использовать функцию, представленную параболой (многочлен второй степени, с тремя параметрами), то во время обучения эта функция пытается как можно лучше пройти через все эти точки, и интерполяция, которую она выполняет, будет верной. Если задано какое-то другое значение x, которого нет в обучающем наборе, оно будет интерполироваться с параболой между ними, и выход, вероятно, будет довольно правильным.

Мы можем протестировать многочлен восьмой или 16-й степени, чтобы выполнить ту же задачу, т. е. связать между собой девять точек обучения. Наша модель, однако, окажется при этом настолько гибкой, что кривая сможет пройти идеально через все точки. Но поскольку точки не идеально выровнены, кривая должна колебаться, чтобы пройти через их. Если это многочлен восьмой степени, он может иметь семь экстремумов, и для любых девяти точек найдется такой многочлен, график которого пройдет через все точки.

Такая модель не очень годится для интерполяции. Это связано с тем, что если мы дадим ей обработать новый x, который мы не использовали во время обучения, этот x можно будет найти на вершине волны, поэтому значение y, которое создаст модель, вероятно, будет ошибочным. Таково переобучение, проблема, которая возникает, когда вы используете слишком сложную модель и у вас недостаточно данных для обучения. Система обладает достаточной способностью изучать данные «наизусть», не обнаруживая лежащих в основе закономерностей.

Ошибка обучения постепенно увеличивается в зависимости от количества примеров. Все предельно ясно: чем больше точек, тем меньше шансов, что парабола (или другой многочлен, выбранный инженером) пройдет через все точки. В наборе проверки (для памяти он состоит из примеров, которые машина не видела во время обучения) ошибка уменьшается по мере увеличения количества примеров.

Для любой системы ошибка обучения, которую специалисты называют эмпирической ошибкой, всегда меньше, чем ошибка проверки: модель лучше справляется с примерами, которые она уже видела, чем с примерами, которых она никогда не встречала. Если мы увеличим количество обучающих примеров при неизменной сложности модели, мы получим две сходящиеся кривые: ошибка обучения медленно растет, а ошибка проверки медленно падает. По мере того, как количество примеров приближается к бесконечности, две кривые становятся все ближе и ближе.

Рис. 4.11. Конвергенция кривых ошибок обучения и тестирования для большой и малой модели

Для данной модели по мере увеличения числа обучающих примеров ошибка обучения (пунктирные линии) медленно увеличивается, а ошибка проверки (сплошные линии) медленно падает. На малой модели (серые линии) кривые начинают быстро сближаться уже для немногих точек, но окончательная ошибка довольно велика. Для более крупной модели (с большим количеством параметров) требуется больше примеров, прежде чем кривые начнут сближаться. Они сближаются не так быстро, но окончательная ошибка будет намного меньше. Там, где кривые ошибки проверки пересекаются, проведена вертикальная линия, разделяющая большее и меньшее число точек обучения. До этой линии предпочтительнее малая модель, а после нее – большая модель.

Почему? Допустим, у нас только семь точек данных. Прямая линия, то есть многочлен первой степени, не может проходить через все эти точки: после двух точек ошибка обучения начинает увеличиваться, если точки не выровнены.

Кривая многочлена четвертой степени сможет пройти ближе ко всем точкам. Ошибка обучения меньше, чем с прямой линией. Но график такой функции должен изгибаться, чтобы проходить как можно ближе к точкам. Эти изгибы, вероятно,

Перейти на страницу:

Ян Лекун читать все книги автора по порядку

Ян Лекун - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки kniga-online.club.


Как учится машина. Революция в области нейронных сетей и глубокого обучения отзывы

Отзывы читателей о книге Как учится машина. Революция в области нейронных сетей и глубокого обучения, автор: Ян Лекун. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор kniga-online.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*