Геннадий Мирам - Профессия: переводчик
языка он находит соответствие в другом языке и так слово за словом переводит текст.
Однако, как вам тоже должно быть известно, общее значение в разных языках могут иметь не только отдельные слова, но и словосочетания, поэтому простейший переводящий автомат ищет соответствия не только для отдельных слов, но и для словосочетаний, выполняя так называемый пословно-пооборотный перевод.
Кроме того, соответствие слов разных языков друг другу не является однозначным, т.е. одному слову языка А может соответствовать несколько слов языка В и наоборот. Следовательно, в переводящем автомате необходимо предусмотреть программу выбора правильного эквивалента.
Такие программы обычно основываются на двух принципах:
1. На принципе выбора эквивалента по синтаксической модели входного текста, чаще всего по синтаксической модели предложения. Таким образом, например, автомат может различить эквиваленты глагола "to book" и существительного "book" (соответственно, "резервировать" и "книга").
2. На принципе выбора эквивалента по семантической модели. По разным семантическим моделям автомат, например, может различать такие эквиваленты слова "solution" как "решение" и "раствор". Обе модели обычно применяют в комплексе. И сами модели, и процедуры выбора эквивалентов довольно сложны. Мы кратко и в общих чертах рассмотрим их ниже.
В некоторых более сложных системах в дополнение к этим двум принципам выбора эквивалента применяют также и принцип выбора на основе внелингвистической (фоновой) информации. Модели для выбора эквивалентов, работающие по этому принципу, еще сложнее: их относят к разряду моделей искусственного интеллекта.
В зависимости от сложности выбора правильного зна-
чения слов и, соответственно, правильного переводного эквивалента модели и системы машинного перевода можно разделить на три уровня.
К первому, низшему уровню относятся простейшие модели пословно-пооборотного перевода, в которых выбор эквивалентов не производится и на выход системы перевода поступают все переводные эквиваленты, имеющиеся в словаре.
Системы второго уровня, к которым относятся почти все так называемые "электронные переводчики", имеющиеся на современном рынке программного обеспечения, используют ту или иную комбинацию синтаксических и семантических моделей для выбора правильного эквивалента и преобразования структуры входного текста в структуру текста перевода.
Наконец, модели третьего уровня в дополнение к грамматике и семантике применяют для синтеза текста перевода также и фоновые знания. Надо сказать, что модели и системы этого уровня до сих пор находятся на стадии эксперимента.
Для того чтобы яснее представить себе возможности систем разного уровня и качество перевода, которое вы можете получить с их помощью, давайте проведем аналогию между действиями автомата и человека.
Системы низшего уровня можно сравнить с человеком, который, пользуясь словарем и таблицей словоизменения (списком правил и форм спряжения и склонения), переводит текст на совершенно незнакомом ему языке,
Система действует так же, как действуем в этом случае мы. Берет первое слово, смотрит, есть ли оно в словаре в таком виде. Если есть, выписывает все его переводы, если нет, то ищет в таблице словоизменения форму слова, обнаруженную в тексте, определяет соответствующую словарную форму и выписывает все переводы. Затем берет следующее слово и т.д.
В данном случае отличие от перевода, выполняемого человеком, состоит в том, что человек, делая такой перевод, отбрасывает все неподходящие переводные эквиваленты, система же машинного перевода низшего уровня этого не делает. Вот какой, например, получается перевод короткого предложения: Lead absorbs radiation
свинец / лот / грузило / вести / руководить / лидировать / руководство / лидерство / проводник; всасывать / впитывать абсорбировать / амортизировать / поглощать; излучение/ радиация',
Системы второго уровня по своим действиям напоми-нают более или менее опытного переводчика, который переводит текст на совершенно непонятную ему тему. Подобно такому переводчику система сможет отбросить наиболее неподходящие эквиваленты на основе анализа синтаксиса и семантики, причем глубина и точность такого анализа у автомата будет зависеть от совершенства и полноты моделей так же, как у переводчика, она зависит от полноты его профессиональных знаний.
Но так же, как переводчик, который совершенно не понимает содержания переводимого текста, переводящий автомат этого уровня не сможет сделать выбор экви-валентов на основе фоновой информации.
Можно, например, предположить, что такая система на сновании анализа грамматического контекста (два глаго-на подряд), переводя предложение "Lead absorbs radiation", исключит глаголы в качестве эквивалентов слова "lead". To есть получит на выходе промежуточный текст: свинец / лот / грузило / руководство / лидерство / проводник; всасывать / впитывать абсорбировать / амортизировать / поглощать; излучение/ радиация. Можно также предположить, что на основе элементар-ного анализа семантики субъекта "lead" и предиката "absorbs" и семантических отношений между ними переводящий автомат исключит эквиваленты "руководство" и "лидерство", т.е. получит на выходе:
свинец / лот / грузило / проводник; всасывать / впитывать / абсорбировать / амортизировать / поглощать; излучение /радиация.
После грамматического согласования перевод этого предложения, сделанный системой второго уровня, будет выглядеть приблизительно так:
свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию).
А вот сделать выбор между словами "свинец", "лот", "грузило" и "проводник", между эквивалентами "всасывает", "впитывает", "абсорбирует", "амортизирует", "поглощает", а также между частичными синонимами "излучение" и "радиация" переводящий автомат этого уровня не сможет, так как такой выбор можно сделать лишь на основе фоновых (т.е. специальных) знаний.
Выше я написал, что перевод, выполненный синтакти-ко-семантической системой машинного перевода будет иметь приблизительно такой-то и такой-то вид. И это правильно, так как приведенный здесь пример относится к конкретному случаю перевода, выполненного определенной системой, точнее системой, которую я сам разработал и знаю, что от нее можно ожидать36.
Не исключено, что другие, более совершенные системы смогут провести более тонкий синтактико-семантический анализ и отбросить некоторые неподходящие эквиваленты. Не это важно.
Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а системы второго уровня фоновую информацию использовать не могут.
Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.
Системы третьего уровня используют модели синтаксического и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего мира. К сожалению, как уже говорилось, они существуют лишь на стадии эксперимента.
Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рассмотрим более подробно, как они работают и как их может применить в своей работе переводчик.
Очевидно, что основой любой системы машинного перевода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.
Как правило, все эти системы снабжены большими словарями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лексикой.
Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следующие функции:
а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка предложения LEAD*ABSORBS*RADIATION.(* - пробел) будет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;
6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;
в) по графемному составу слова регистрирует грамматическую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который может служить формальным признаком отглагольного существительного;