Kniga-Online.club
» » » » Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Читать бесплатно Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Жанр: Научная Фантастика издательство АСТ, год 2004. Так же читаем полные версии (весь текст) онлайн без регистрации и SMS на сайте kniga-online.club или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Итак, что мы могли предложить Норвигу?

Мы вновь подумали о книге Legendary, Lexical, Loquacious Love Карен Реймер. Разве изучение книги Реймер и то, как частота тех или иных слов позволяет увидеть скрытые стороны произведения и мысли его автора, не стало бы еще интереснее, если бы сюжет представлял собой значительную часть исторических записей западной цивилизации, а автором оказался в каком-то смысле каждый?

Чем больше мы думали об этом, тем больше этот алфавитный роман казался нам источником тени, простой и прекрасной, прекрасной, прекрасной, прекрасной, прекрасной. Почему бы нам просто не воспользоваться частотой слов в книгах Google?

Если быть более точными, наша идея состояла в том, чтобы создать теневой массив данных, содержащий одну запись для каждого слова и фразы, появлявшихся в написанных на английском языке книгах.

Эти слова и фразы – в компьютерных науках для этого используется забавный термин n-грам – включают 3.14159 (1-грам), banana split (2-грам) и the United States of America (5-грам). Для каждого слова и каждой фразы запись могла бы состоять из длинного списка чисел, показывающих, насколько часто определенный n-грам появлялся в книгах, год за годом, за последние 5 столетий. Это не просто невероятно интересно, но и стало бы юридически безупречным решением. Насколько мы могли судить, против Реймер никогда не подавались иски за публикацию алфавитной версии чужого произведения.

Однако здесь имелась определенная опасность: что, если какой-нибудь хакер вычислит, как использовать общедоступные данные о частоте слов и фраз для восстановления полного текста всех книг? Сборка огромного текста из крошечных, перекрывающих друг друга кусочков – не такая уж безумная затея. По сути, подобный метод лежит в основе современных работ по секвенированию генома[89].

Для решения этой проблемы мы положились на статистический факт – в любой книге не нужно далеко ходить, чтобы отыскать уникальную фразу. Например, предыдущее предложение было, возможно, единственным в мире упоминанием фразы «отыскать уникальную фразу» или, как минимум, было таковым до тех пор, пока мы не повторили его еще один раз. Поэтому мы добавили простое решение: наша тень не будет включать данные о частоте употреблений для слов и фраз, встреченных лишь несколько раз. При условии такой модификации восстановление полных текстов будет невозможным с математической точки зрения. Возникающая в результате тень – n-грамы – показалась нам исключительно многообещающей. Тексты, защищенные копирайтом, не подвергались бы никакой угрозе (критерий 1). Мы знали, как из своей работы с неправильными глаголами, так и из анализа произведения Реймер, насколько много можно узнать от одного лишь отслеживания частоты употребления отдельно взятого слова (критерий 2). Это могло бы стать новым мощным способом для поиска концепций, а следовательно, и привлекательной идеей для компании, занимающейся проблемами поиска (критерий 3). А подсчет слов представляет собой, возможно, самую простую форму работы в области компьютерных наук (критерий 4).

Разумеется, если мы ограничим себя данными n-грамов, то слова окажутся практически лишенными любого контекста, то есть мы не сможем сказать, пишет ли кто-то об Элиа Казане как о великом режиссере или же о предателе своих друзей во времена «красной угрозы». Однако это не ошибка системы, а ее свойство: именно контекст делал данные юридически шаткими. Освободившись от контекста, мы могли бы заявить о том, что наша тень набора данных и связанные с ней инструменты могли бы стать открытыми не только для нас как исследователей, но и для всего мира. Наша тень нащупала важную точку – вы можете извлекать максимум пользы и удовольствия, не нарушая при этом закон. Нашим ответом на все вопросы стали n-грамы. Норвиг немного подумал над этой идеей, а затем решил, что можно попробовать. Он помог нам собрать команду – инженеров из Google Йона Орванта и Мэтта Грея, а также нашего интерна по имени Юань Шэнь. И вдруг мы поняли, что у нас появился доступ к самой большой коллекции слов в истории.

Лидеры свободного слова

Язык состоит из слов. Но что такое «слово»?

Это довольно непростой вопрос. Давайте посмотрим на политиков. В ходе всей своей карьеры президент Джордж Буш-младший время от времени довольно творчески обходился с языком, например добавляя приставку mis- («лже-») перед словом underestimated («недооцененный»). Эти «бушизмы» сделали его предметом множества шуток и издевательств на вечерних юмористических телешоу. Язык, используемый политиками, подвергается настолько внимательному изучению, что даже такая, на первый взгляд, мелочь, как ошибка в орфографии, может стать по-настоящему злободневным вопросом[90]. В своих мемуарах бывший вице-президент Дэн Куэйл, публично опозорившийся тем, что неправильно написал слово potato, описывал случившееся так: «Это было не простой оплошностью, а поистине решающим моментом, причем самого худшего порядка». С публичными насмешками столкнулась и Сара Пэйлин после того, как использовала в «Твиттере» странное слово refudiated (Пэйлин пыталась сказать, что, подобно всем другим политикам, она является объектом двойных стандартов) [91]. Тем не менее после этого Пэйлин написала следующий твит: «Английский – это живой язык. Шекспир тоже любил придумывать новые слова» [92].

И она права. Пьесы Шекспира наполнены неологизмами. По сути, Шекспир, как и Буш, был социальным консерватором и либералом в отношении приставок и суффиксов. Он часто создавал новые слова, используя ту же стратегию, которая заставила Буша создать слово misunderestimate. Однако в отличие от Буша Шекспир смог оставить богатое лексическое наследие, поскольку его творения получили широкое признание. Например, он использовал приставку lack-, чтобы создавать слова типа lack-beard («безбородый»), lack-brain («безмозглый»), lack-love («лишенный любви») и lack-luster («скучный»). Что касается последнего слова, то его дальнейшую жизнь никак нельзя назвать скучной. Поэты вообще наслаждаются лексической свободой в значительно большей степени, чем политики. Стихотворение Льюиса Кэрролла «Бармаглот» состоит в основном из слов, придуманных автором, и, возможно, Кэрролл возликовал бы, узнав, как много из них вошло в современный английский язык.

Итак, какие же слова мы можем использовать в языке без страха, а какие могут сделать нас объектом насмешек со стороны сатириков?

(adsbygoogle = window.adsbygoogle || []).push({});
Перейти на страницу:

Жан-Батист Мишель читать все книги автора по порядку

Жан-Батист Мишель - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки kniga-online.club.


Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры отзывы

Отзывы читателей о книге Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры, автор: Жан-Батист Мишель. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор kniga-online.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*