Конструирование языков: От эсперанто до дотракийского - Александр Чедович Пиперски
Лингвистика пользуется идеями, которые пришли из теории информации. Отечественный математик Андрей Колмогоров (1903–1987) ввел формальное определение сложности – то, что называется «колмогоровская сложность»{48}. Не вдаваясь в математические подробности, можно сказать, что сложность некоторого объекта – это длина наиболее экономного его описания на каком-то формализованном языке. Рассмотрим, например, последовательность символов АББВАББВБВБАБА; ее никак нельзя описать экономнее, чем просто назвать. А вот последовательность АБАБАБАБАБАБ экономно описать очень легко: АБ шесть раз. И поэтому первая последовательность сложная, а вторая – более простая.
Впрочем, к реальности это применимо плохо: ведь для того чтобы сравнивать таким образом грамматики естественных языков, нужно иметь грамматики для того самого условного марсианина на основе некоторых единых принципов описания – а очевидно, что таких не существует. Поэтому приходится искать какие-то корреляты языковой сложности, которые можно измерить, чтобы вычислить, какие языки сложнее, а какие проще.
Во-первых, один из таких коррелятов – это разнообразие элементов. Так, если в каком-то языке 8 согласных, а в каком-то другом – 60, то очевидно, что первый язык по системе согласных проще, чем второй.
Во-вторых, усложняющим фактором является невзаимнооднозначное соответствие между формой и значением на уровне грамматики языка. Например, если одна и та же форма в некотором языке образуется десятью разными способами, то это сложнее, чем если эта форма образуется одним способом. Скажем, в английском языке множественное число у абсолютного большинства существительных образуется регулярно при помощи одного и того же окончания -s (tree 'дерево' ~ trees 'деревья', father 'отец' ~ fathers 'отцы', brick 'кирпич' ~ bricks 'кирпичи', edge 'край' ~ edges 'края')[8], а в немецком языке имеется много разных моделей склонения. К примеру, от слова Baum 'дерево' множественное число будет Bäume, от слова Vater 'отец' – Väter, от слово Ziegel 'кирпич' – Ziegel (без изменения), от слова Rand 'край' – Ränder. Такое разнообразие типов означает, что в немецком языке образование множественного числа существительных устроено куда сложнее, чем в английском.
Еще один коррелят сложности – это невзаимнооднозначное соответствие между формой и значением на уровне уже не грамматики, а текста: если одно и то же значение выражается в тексте несколько раз. Такое явление в языках мира называется согласованием. Если мы переведем на английский язык словосочетание новый компьютер, оно будет выглядеть как the new computer, а новые компьютеры – the new computers. Множественное число по-английски выражается один раз – в окончании существительного. А в русском языке значение множественного числа выражается дважды: и в окончании прилагательного, и в окончании существительного. Тем самым русский язык оказывается сложнее английского, потому что в нем нет взаимнооднозначного соответствия между значением множественного числа и его выражением в тексте.
Зачем все это нужно? Ясно, что человеческий язык – это продукт эволюции. Ему уже примерно 100 000 лет, и если бы это было какое-то избыточное переусложнение, оно уже давно устранилось бы. Но нет – такие явления могут и возникать, и сохраняться, и утрачиваться, а никакого единого вектора развития не существует. Дело в том, что языковая сложность так или иначе выгодна и говорящему, и слушающему, причем разные ее аспекты выгодны разным участникам коммуникации.
Разнообразие элементов позволяет делать тексты короче. Скажем, если в языке 8 согласных, то обычно слова в нем будут длиннее, чем в языке с 60 согласными. Это видно на простом математическом примере: если одно и то же число записать в двоичной системе счисления, где символов только два, и в десятичной, где символов десять, то десятичная запись обычно будет примерно в три раза короче двоичной: например, 91 08910 (5 цифр) = 101100011110100012 (17 цифр).
То же касается и нерегулярности в грамматике. Если мы вернемся к английскому множественному числу и посмотрим, как устроены те формы, которые образуются не по правилам, то они обычно короче, чем были бы, если бы были регулярными. Скажем, несуществующая, но регулярная форма *tooths была бы на один звук длиннее, чем реальное teeth, а форма *mouses, если бы mouse склонялось как house, было бы длиннее, чем mice.
Невзаимнооднозначность соответствия между формой и содержанием на уровне текста позволяет делать сообщения избыточными. Это может быть очень полезно слушающему, потому что в коммуникации постоянно происходят помехи. Так, если мы слышим английское словосочетание the new computers, но на последнем слоге где-то рядом раздался треск, то это приводит к тому, что мы не понимаем, какое число имеется в виду. Но, услышав русское словосочетание новые машины с таким же треском в конце, мы все-таки восстановим число по прилагательному. Таким образом, избыточность усложняет язык, зато она выгодна слушающему.
Единая количественная мера сложности в научной лингвистике пока так и не выработана. Обычно берут разные параметры: считают количество звуков, падежей, глагольных времен и так далее – и пытаются найти единую взвешенную меру, которая все это учтет и покажет, какие языки самые простые, а какие самые сложные. Шкалы такого рода обычно позволяют довольно легко (поскольку данные про количество звуков, падежей и времен уже собраны) хотя бы в первом приближении понять, какие языки проще, какие сложнее. Известная американская исследовательница Джоанна Николс создала такой рейтинг еще в 1992 г.{49} На верхних его строчках оказались шумерский язык, язык манггараи, на котором говорят в Австралии, аккадский язык, баскский язык, еще один австралийский язык дингили и южный сьерра-мивокский язык, распространенный в Северной Америке. В нижнюю часть рейтинга попали, среди прочего, миштекский язык (Мексика), нивхский язык, на котором говорят на Дальнем Востоке, и китайский. Для нелингвиста это может быть немного удивительно, потому что он, слыша о китайском языке, в первую очередь вспоминает об иероглифах, но если посмотреть на грамматическую систему, то легко понять, почему это так. В китайском практически нет морфологии, чем и объясняется, что он оказался на нижних позициях на этой шкале, – и если бы к нам прилетел марсианин и стал учить китайский язык без иероглифов, он наверняка достиг бы успеха достаточно быстро.
Но, хотя научная лингвистика только сейчас формирует четкое знание о языковой сложности, некоторые первичные представления об этом, основанные на опыте изучения иностранных языков, существовали всегда. Были и есть они и у изобретателей вспомогательных языков. Всякому очевидно, что не стоит создавать для международного общения язык, в котором 100 согласных и 25 гласных или десять разных способов образования множественного числа, как в немецком языке. Именно поэтому международные вспомогательные языки обычно действительно оказываются в нижней части