Алло, робот - Кондратов Александр Михайлович
Но вот частотный словарь составлен. Длинный список, в котором либо в алфавитном порядке, либо по «популярности» идут слова и рядом — числа, показывающие, сколько раз встречаются эти слова в тексте.
Например, в «Капитанской дочке» А. С. Пушкина, состоящей из 29 тысяч слов, союз «и» употребляется более тысячи раз, предлог «в», второй по «популярности», 724 раза, и т. д. (заметим в скобках, что этот частотный словарь был составлен машиной).
Что же делать с этим списком дальше? Предположим, что 200 слов встречаются от 30 раз и более, 500 слов — более 10 раз, 2 тысячи слов — менее 5 раз. Ясно, что самые частые слова следует включить в словарь для машины, а редкие нужно устранить.
Но как определить границы? До каких пор считать слово частым, а до каких — редким? Отбросить слова, которые попадаются 5 раз и реже? А почему не отбросить слова, употребляющиеся менее 10 раз? Или, наоборот, включить в словарь для машинного перевода все слова, за исключением лишь тех, которые встречаются только 1 раз? Как найти правильные показатели?
Для ответа на этот вопрос нужно учесть так называемую «текстообразовательную способность» слов. 736 самых употребительных, самых частых английских слов, как установили подсчеты, занимают 75 процентов текста на английском языке.
1000 самых частых слов английского языка позволяют «покрыть» 80,5 процента английского, 83,5 процента французского, 81 процент испанского языков. Выучив эти слова или вложив их в «память» машины, мы можем знать 8 из 10 слов текста!
8 из 10! А если взять 2 тысячи самых частых слов? Может, мы будем тогда знать почти все слова? Оказывается, что такое удвоение позволяет не намного увеличить наше знание. Только 86 процентов текста «покроют» эти слова.
Ну, а 3 тысячи самых частых слов? Результат также не утешителен — около 90 процентов, 5 тысяч слов дадут возможность «покрыть» 93,5 процента текста, а десять тысяч — 96,4 процента. Слишком маленький коэффициент полезного действия при увеличении списка. Вероятно, целесообразно остановиться на первой тысяче самых частых слов, в крайнем случае на 5 тысячах слов, так чтобы из 100 слов только 6 были бы неизвестны.
В настоящее время преподаватели иностранных языков начинают использовать эти данные статистики, чтобы разумно составлять словари-минимумы. С помощью чисел можно ясно увидеть, какой запас слов надо давать ученикам на первой неделе занятий, на первом году обучения и т. д. Помогают эти числа и при составлении «машинных словарей», словарей для автоматического перевода.
ТОЛЬКО ЛИ СТАТИСТИКА!
Когда говорят о математической лингвистике, обычно представляются числа. Числа, отражающие законы языка. Но на самом деле это не совсем так, ибо математика изучает не только числа.
Мы уже не раз говорили о статистике. Это неудивительно. Она играет очень важную роль в науке XX века. И ядерная физика, и биология, и антропология, и многие, многие другие науки о природе й человеке используют ее. Статистические методы применяются и в языкознании, и в изучении законов стихосложения.
Но, прежде чем начать подсчеты, всегда необходимо знать, что считать, какие элементы, какие единицы подлежат учету и подсчету. Вспомните о частотных словарях. Одним из первых, кто занялся их составлением, был известный американский статистик Удни Юл. В свободное время он увлекался средневековой литературой, написанной по-латыни. Филологи спорили, кто написал одно из любимых произведений Юла. И математику пришла в голову любопытная мысль: а что, если решить этот вопрос с помощью статистики?
Юл попытался сделать это... В результате появилась объемистая монография, посвященная вопросам языковой статистики. Примерно в то же время, в 40-х годах нашего столетия, статистическими законами языка занялся другой видный американский ученый — языковед Г. К. Ципф. И он пришел к несколько иным результатам, чем его коллега Удни Юл!
В чем же дело? Ведь законы статистики одни? Но... разгадка состоит в том, что, подсчитывая частоту слов — основу анализа, — они, по существу, исследовали разные явления, ибо под словом — единицей счета — подразумевались разные вещи. Юл считал словом то, что мы называем основой слова. Например, слова «стол», «стола», «столу», «столом» он считал одним словом.
Ципф же считал отдельным словом не только основу, но и все производные от нее словоформы. «Стол», «столу», «стола» и т. д. были для него разными словами.
При анализе пушкинской строки «глухой глухого звал на суд судьи глухого» Юл констатировал бы, что слово «глухой» встретилось три раза. А Ципф записал бы: слово «глухой» встретилось один раз и слово «глухого» два раза. Метод Ципфа был более удачен. На основании его был сформулирован так называемый «закон Ципфа», вызвавший первоначально удивление и сомнение, а затем восхищение лингвистов.
Математически он выглядит так:
Объясняется эта формула следующим образом. Подсчитайте на большом материале, сколько раз встречается то или иное слово. Запишите затем все частоты слов в список в порядке убывания частот: первым поставьте самое «популярное» слово, вторым — следующее за ним по частоте, и т. д., пока на последнем месте не окажется самое редкое слово. Список занумеруйте. И затем, если вы перемножите частоту слова на номер этого слова в списке (р на s), то получите постоянную величину!
И первое, и десятое слова, и любое другое слово в списке, номер которого будет умножен на частоту этого слова, даст одну и ту же величину! Этот закон приложим к любому языку, любому тексту (за исключением поэтических, как выяснилось позднее).
Чем объясняется эта удивительная особенность нашего языка? Французский ученый Мандельброт объяснил «закон Ципфа» с помощью теории информации, заодно несколько уточнив его. Этот закон «отвечает стремлению к оптимальному распределению информации среди имеющихся в языке слов, с тем чтобы полностью использовать возможности данного кода», — писал он.
ФОРМУЛЫ ГРАММАТИКИ
Если бы Юл принял то определение, какое давал слову Ципф, он, вероятно, пришел бы к открытию этого закона Но, увы! У лингвистов нет точных критериев определения слова. Академик В. В. Виноградов в своей книге «Русский язык», вышедшей в конце 40-х годов, приводил около сорока различных определений, которые давали слову языковеды.
За время, истекшее с тех пор, к старым определениям прибавилось еще множество других: с позиции математической лингвистики, теории информации, теории множеств (например, слово — это минимальный промежуток между двумя пробелами). Попробуйте-ка выбрать подходящую «единицу счета» для составления частотного словаря и других статистических исследований!
Вот почему ученые задумались над тем, чтобы к изучению языка применить не только количественные, но и другие разделы математики. Ибо, по справедливому замечанию французского лингвиста Фердинанда де Сос-сюра, предтечи современного точного языкознания, «до сих пор в области языка довольствовались операциями над единицами, как следует не определенными».
Ольга Сергеевна Кулагина предложила применять математическую теорию множеств для определения грамматических понятий. Это было вызвано практическими причинами: необходимо было дать четкие критерии для машинного перевода. Но из прикладной эта задача вскоре стала на повестку дня языковедов-теоретиков.
Идея Кулагиной породила ряд работ как в математике, так и в лингвистике, посвященных «формулам грамматики», определению законов языка на основании теории множеств.
Специалист по математической логике В. А. Успенский, лингвист И. И. Ревзин, математик Р. Л. Добрушин предложили ряд «математико-грамматических» моделей языка. Академик А. Н. Колмогоров предложил свою математическую модель определения падежа (известный лингвист Р. О. Якобсон считает «определение падежа по Колмогорову» лучшим определением падежа, которое когда-либо было предложено в языкознании).