Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта - Леонид Черняк
Очередным шагом в развитии прикладного коннекционизма стало создание иерархической многослойной ANN сверточного типа (Convolutional Neural Network, CNN) в 1980 году. Японский исследователь Кунихика Фукусима (Kunihiko Fukushima) назвал ее неокогнитрон. Он занимался распознаванием рукописных текстов и взял в качестве прототипа идею когнитрона, ранее выдвинутую шведом Торстеном Визелем (Torsten Wiesel, 1924) и канадцем Дэвидом Хьюбелом (David Hubel, 1926–2013). В 1981 году Визель и Хьюбел стали лауреатами Нобелевской премии по физиологии и медицине «за открытия, касающиеся принципов переработки информации в нейронных структурах». Фундаментальные работы Визеля и Хьюбела по нейрофизиологии зрения заложили основы организации и развития нейронных цепей, ответственных за зрительное распознавание объектов. Иногда, например в той же русскоязычной википедии, открытие CNN ошибочно приписывают Яну Лекуну.
В начале 80-х существенный вклад в развитие ANN сделал финский ученый Теуво Кохонен (Teuvo Kohonen, 1934 года). В течение многих лет он руководил Исследовательским центром нейронных сетей Технологического университета в Хельсинки, созданным специально для проведения научных исследований, связанных с его разработками. Этот класс ANN так и назван нейронными сетями Кохонена, он отличается наличием слоя, состоящего из адаптивных линейных сумматоров. «Самоорганизующаяся карта Кохонена», так их еще называют, применяется для решения задач моделирования, прогнозирования, выявления наборов независимых признаков, поиска закономерностей в больших массивах данных. Символично, что Теуво Кохонену была вручена награда имени Фрэнка Розенблатта.
Вторая волна коннекционизма и модель Изинга
К началу восьмидесятых годов, когда появились достаточно мощные компьютеры, открылась возможность для перехода от теории коннекционизма к практике, недоставало методов, позволяющих создавать компьютерными средствами некоторое подобие мозга, моделируя нейронные сети. Движение в этом направлении началось с взаимодополняющих работ двух американцев – физика Уильяма Литтла (William Little) из Стэнфордского университета и нейрофизиолога Джона Хопфилда (John Hopfield, 1933), получившего известность благодаря открытию в 1982 году ассоциативных нейронных сетей (Associative Neural Network, ASNN). Литтл смог найти параллель между мозгом и определенным классом физических систем, значение этого открытия состоит в том, он показал как известные методы моделирования, разработанные для физических систем, могут быть распространены и на нейронные сети. Эти наблюдения описаны в двух статях: в перовой «Существование устойчивых состояний в мозгу» (The existence of persistent states in the brain, 1974) показана теоретическая возможность моделирования деятельности мозга, а во второй «Модели Изинга в приложении к нейронным сетям» (An Ising model of a neural network, 1980), где показано почему именно эта физическая модель может быть адаптирована к моделированию ANN. В 1982 году Хопфилд сделал следующий шаг, доказав изоморфизм выбранной Литтлом модели Изинга и рекуррентных моделей нейронных сетей. С тех пор модель Изинга является фундаментальной основой современных работ в области ANN, хотя для большинства специалистов в этой области сам факт ее существования остается неизвестным.
Возникает естественный вопрос: «Почему модель Изинга, разработанная в 20-х годах прошлого века и используемая для моделирования в физике, химии, биологии и даже социологии, вдруг оказалась так важна еще и для воспроизведения нейронных сетей на компьютере?» Для того, чтобы ответить на этот вопрос надо развести два понятия: одно – собственно модель с тем или иным приближением отражающая свойства реального объекта, а другое – математический шаблон этой модели, который может быть запрограммирован или обучен.
В природе случается, что моделируемым объектам, имеющим совершенно разную природу, могут соответствовать одни и те же математические шаблоны. Приведем простейший пример. При замыкании одного заряженного конденсатора другим равным по емкости незаряженным заряд остается тем же, но напряжение падает вдвое и происходит неизбежная потеря накопленной энергии в виде электромагнитного и светового излучения. Точно также теряется накопленная кинетическая энергия при неупругом соударении движущегося тела с равным по массе неподвижным – в данном случае сохраняется масса, а скорость уменьшается тоже, и половина кинетической энергии уходит на нагрев. В этих двух опытах физика совершенно разная, но происходящее и в том и в другом случае описывается одним и тем же математическим шаблоном, различие лишь в том, что в первом случае на два делится произведение величины заряда и квадрата напряжения, а во втором величины массы и квадрата скорости.
Существует огромное число разнообразных природных процессов, которые описываются одними и теми же дифференциальными, интегральными уравнениями или иными уравнениями, играющими роль шаблона. Лет 70 назад обнаружилось, что шаблоны удобно воспроизвести при помощи операционных усилителей – относительно простых электронных устройств, из которых собирали специальные моделирующие аналоговые вычислительные машины (АВМ). Для имитации могут быть использованы не только электронные устройства, но и пневматические, было даже такое направление, называвшееся пневмоникой, а гидравлические интеграторы позволяли решать дифференциальные уравнения в частных производных.
Возвращаясь к модели Изинга надо сказать, что область ее действия распространяется на кооперативные системы, которые невозможно описать уравнениями. Кооперативные системы отличаются тем, что представляют собой совокупность элементов, взаимодействующих между собой, и подчиняются одновременно двум законам: по одному подчиняются отдельные элементы, а второй управляет поведением всей системы в целом. Такая сложная системная организация не позволяет объяснить свойства системы в целом через совокупность свойств отдельных компонентов.
Автор модели Эрнст Изинг (Ernst Ising, 1900–1998) предложил ее в 1920 году будучи аспирантом в Гамбургском университете. Там он изучал магнитные свойства спинового стекла – материала, имеющего магнитные свойства, но непохожего на обычные магниты. В обычных материалах, таких как железо, спины электронов обычно выстраиваются в одном направлении: если электрон со спином «вниз» окружен электронами со спином «вверх», перевертывается и, когда большинство спинов в куске железа таким образом выстраиваются, он превращается в магнит. Такое происходит в обычных магнитах потому, что сила взаимодействия между соседними спинами одинакова, в отличие от них в спиновом стекле эта сила может отличаться и даже бывает отрицательной, из-за чего расположенные рядом спины ведет себя произвольно и могут принимать противоположные направления. Единообразие частиц обычного магнита приводит к тому, что его энергия обычного магнита минимальна, если все спины выровнены. Со спиновым стеклом дело сложнее, его частицы имеют свободу воли, они не ведут себя единообразно и невозможно заранее определить его состояние, что позволяет отнести его к кооперативным системам.
Изучение кооперативных систем началось со статистической физики, где квантовая модель Изинга стала одной из стандартных, продолжилось в химии (молекулярные модели Изинга), а позже она распространилась на биологические, социально-экономические науки и даже на геологию, на одно из новейших приложений – лингвистика. И что удивительно, при столь большом природном разнообразии, для моделирования всех этих систем в качестве меташаблона можно использовать одну и ту же модель Изинга. В 2010 году наш соотечественник Станислав Смирнов стал лауреатом Филдсовской премии