Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
96
Каждый год AHD рассылает вопросник участникам опроса из числа пользователей. Один раз работники AHD позволили нам создать собственное дополнение к вопроснику и разослать его участникам для заполнения. Затем мы сравнили их результаты с выводами, полученными с помощью n-грамов. К примеру, мы спросили их о том, какую из форм глагола (sneaked и snuck) они считали приемлемой. Оказалось, что более молодые участники значительно чаще считали форму snuck допустимой. Результаты n-грамов демонстрировали быстрое распространение этой формы в последние десятилетия. В совокупности эти результаты показывают, что участники опроса, а возможно, и остальные пользователи языка, формируют представления о допустимости той или иной формы в юности. См. American Heritage Dictionary of the English Language, 4th ed. Boston: Houghton Mifflin, 2000; The Usage Panel // American Heritage Dictionary, 2013, доступно в сети Интернет: http://goo.gl/JtT4l; Nelson Francis, Kučera Henry. Brown Corpus Manual. Brown University Department of Linguistics, 1979.
97
Рузвельт поддерживал план, изначально предложенный группой под названием Simplified Spelling Board. См. Wolman David. Righting the Mother Tongue: From Olde English to Email, the Tangled Story of English Spelling. New York: Harper Perennial, 2010. Оригинал письма Рузвельта (Letter from Theodore Roosevelt to William Dean Howells) по этому вопросу можно увидеть в виде цифрового факсимиле в Theodore Roosevelt Center at Dickinson State University, доступно в сети Интернет: http://goo.gl/JA8cP.
98
Rolling on floor laughing («катаюсь по полу от смеха»). Если эта аббревиатура вам незнакома, не переживайте – она неизвестна и большинству словарей.
99
Например, как известно, AHD опирается на группу из примерно двухсот экспертов в области языка из разных областей – от судьи Верховного суда Антонина Скалиа до редактора кроссвордов в газете New York Times Уилла Шортца и писателя, лауреата Пулитцеровской премии Джунота Диаза. Возглавляет ее работу Стивен Пинкер (являющийся также соавтором Michel2011). Экспертная комиссия во многом опирается на противоположный культуромике или статистике текстового корпуса подход. Этот подход полагается не на репрезентативную выборку, а на усилия небольшого количества – лексической элиты.
100
См. ожесточенные споры на эту тему, описанные в: Acocella Joan. The English Wars // New Yorker (14 мая 2012 г.), доступно в сети Интернет: http://goo.gl/wGVHsx; Bloom Ryan. Inescapably, You’re Judged by Your Language // New Yorker (29 мая 2012), доступно в сети Интернет: http://goo.gl/js9VJc; Pinker Steven. False Fronts in the Language Wars // Slate (31 мая 2012), доступно в сети Интернет: http://goo.gl/33vNYT. Споры идут и в научных кругах. См., к примеру, Bergenholtz Henning, Gouws Rufus H. A Functional Approach to the Choice Between Descriptive, Prescriptive and Proscriptive Lexicography // Lexicos 20 (2010), доступно в сети Интернет: http://goo.gl/agXm7S.
101
Все примеры анализа, представленные в главе, подробнее разбираются в Michel2011 и Michel2011S.
102
Мы рассчитали распределение частоты употребления 116 156 уникальных 1-грам (исходных слов) в American Heritage Dictionary. После десятого процентиля, то есть примерно на уровне одно на миллиард, частота резко возрастает.
103
При этом не вполне понятно, должно ли слово состоять исключительно из буквенных символов. К примеру, OED (впервые в своей истории) не так давно добавил статью о символе ♥. См. Ho Erica. The Oxford-English Dictionary Adds «♥» and «LOL» as Words // Time (25 марта 2011 г.), доступно в сети Интернет: http://goo.gl/0RB6EA.
104
Заметим, что этот ципфовский словарь представляет собой всего лишь современную интерпретацию идеи, предложенной Элдриджем и реализованной в AHD (что для улучшения качества словарей может использоваться лексическая статистика). Один из первых и убедительных аргументов в пользу этого подхода появляется в статье Bailey Richard W. Research Dictionaries // American Speech 44, no. 3 (1969). P. 166–172. Доступно в сети Интернет: http://goo.gl/4RqfDu.
105
Категории, исключенные из поиска (составные слова, варианты написания и неопределяемые понятия), выбирались на основании результатов обсуждений с Джозефом Пикеттом из American Heritage Dictionary. Принципы исключения варьируются, но в целом при составлении словарей процесс сознательного исключения всегда шел рука об руку с процессом сознательного включения. Сэмюел Джонсон обсуждает множество примеров исключенных слов в своем знаменитом словаре 1755 года. Пространное рассуждение доктора Джонсона по этому вопросу, приведенное во вступлении, не упоминает небуквенных понятий, однако обращается к трем другим классам исключений. Составные слова в основном исключены: «Составные или двойные слова были чаще всего исключены, кроме случаев, когда у итогового слова появляется иное значение, чем у составляющих его элементов. Таким образом, слова highwayman („разбойник“), woodman („лесник“) и horsecourser („заводчик лошадей“) заслуживают включения в словарь; а для слов типа thieflike („напоминающий вора“) или coachdriver („возница“) специальных статей не требуется, поскольку их смысл не отличается от смысла составляющих их слов». Варианты написания, в основном оставленные в словаре: «Я отказался от некоторых, поскольку они не были необходимыми или показались избыточными; при этом я оставил те, которые по-разному создавались и употреблялись различными авторами, к примеру viscid и viscidity („вязкий“ и „вязкость“), viscous и viscosity („липкий“ и „липкость“)». К тому же правила написания слов были в то время значительно менее стандартизованными. Сложные для определения понятия: «Есть и такие, смысл которых слишком трудноуловим и непостоянен для того, чтобы зафиксировать его в пересказе; это и те слова, которые специалисты по грамматике относят к бранной лексике, и слова из мертвых языков, вынужденным образом превратившиеся в набор пустых звуков. Это и слова, единственный смысл которых состоит в заполнении пауз или обозначении окончания предложения, активно использующиеся в живых языках. Они были исключены, хотя порой их нельзя заменить никакими другими средствами». Он также исключает множество других категорий, которые не отражаются в словарях и в наши дни. Имена: «Поскольку моей целью было создание словаря, содержащего обычные или нарицательные слова, я исключил все, связанное с именами собственными, как, например, „арианский“, „социнианский“, „кальвинистский“, „бенедиктинский“ и „магометанский“; при этом я оставил слова, имеющие более широкий смысл, например „языческий“». Специальная лексика: «Должен признать, что я был вынужден исключить из словаря многие понятия из области искусства или ремесел; это было неизбежно: я не мог ни спуститься в шахты, чтобы изучать язык шахтеров, ни совершить морское путешествие, чтобы усовершенствовать навыки в области навигационных понятий, ни заходить на склады купцов, в магазины торговцев искусством, ни собирать названия приспособлений, инструментов и действий, которые обычно не упоминаются в книгах; я не отказывался от включения в словарь слов, оказавшихся в моем распоряжении или ставших доступными мне благодаря счастливому случаю; однако я считал совершенно бесплодным трудом собирать слова из всего окружающего мира, что было бы сопряжено с многочисленными трудностями». В ходе проведенного нами анализа онлайновый словарь Merriam-Webster часто оказывается богаче OED с точки зрения медицинской лексики, поскольку включает в себя отдельный и обширный словарь медицинских терминов (неопубликованная рукопись). Иностранные слова: «Я фиксировал по мере их возникновения слова, которые используют наши авторы благодаря своему знанию иностранных языков или по причине собственного невежества, тщеславия или следования моде, из-за страсти к новшествам. При этом я тщательно их отбирал и призываю остальных воздерживаться от замещения наших родных слов натурализованными и бесполезными иностранными». Причудливые слова: «Не всегда отсутствие слов в словаре должно восприниматься как упущение. Выражения, активно и повсеместно используемые большой частью людей, возникают случайным и непредсказуемым образом; многие из них появляются для временного или локального удобства, и, активно употребляясь в определенных местах или в определенные моменты времени, практически неизвестны где-либо еще. Такие непостоянные жаргонные средства, все время находящиеся в состоянии роста или исчезания, не могут считаться полезными элементами языка, и, таким образом, им суждено исчезнуть вместе со всем, что не заслуживает сохранения». В английском языке есть множество видов темной материи. См. Johnson Samuel. A Dictionary of the English Language. London, 1755; Merriam-Webster’s Collegiate Dictionary. 11th ed. Springfield, MA: Merriam-Webster, 2003. Также мы рекомендуем книгу Carolino Pedro. English As She Is Spoke. New York: Appleton, 1883.
(adsbygoogle = window.adsbygoogle || []).push({});