Геннадий Мирам - Профессия: переводчик
г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного
слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕНИЕ, (N); (процесс, характеристика);
д) формирует синтаксическое и семантическое представление входного текста (как правило, предложения), например, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид:
(lead)=V(TRANS/OBJ=Nanim,inanim)/N (MATER/ ABSTR); (absorbs) =V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater);
(radiation)=N(PROC/PARAM).
Здесь нужно сделать оговорку. Я думаю, достаточно очевидно, что приведенная в примерах информация по синтаксическим и семантическим моделям носит иллюстративный характер и ни в коей мере не претендует на полноту или универсальность. То же можно сказать и о тех примерах, которыми будет иллюстрироваться работа других модулей системы автоматического перевода.
В каждой конкретной системе данные и процедуры их обработки имеют свою специфику. Зачастую такая информация даже носит конфиденциальный характер.
Моя же задача состоит лишь в том, чтобы показать на примерах основные функции программного модуля автоматического словаря и других типовых модулей переводящего автомата. Но вернемся к описанию функций.
Выходные данные модуля автоматического словаря, т.е. синтаксическое и семантическое представление исходного текста и семантико-синтаксическая информация о переводных эквивалентах поступают на вход второго этапа обработки, т.е. на вход модуля преобразования синтактико-семантического представления входного текста в синтактико-семантическое представление выходного. Это преобразование в специальной литературе носит заимствованное название "трансфер".
В процессе трансфера:
1. Производится анализ синтаксиса и семантики входного текста и уточняется его структура. При этом структура предложения выражается в форматах так называемой машинной грамматики, т.е. в виде формального описания синтаксических (и, как правило, семантических) элементов предложения и отношений между ними.
Сейчас чаще всего используют грамматику зависимостей или непосредственно составляющих в форматах "уни-фикационной грамматики {unification grammar)"37.
Так, например, в результате обработки на этапе анализа уточненная синтактико-семантическая структура того же английского предложения может иметь вид:
N(MATER/ABSTR)(SUBJECT)<=(PREDICATE) V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater)=> (OBJECT)N(PROQPARAM).
2. Преобразование структуры входного предложения в промежуточную (ядерную) структуру по правилам машинной грамматики. Например, по правилам грамматики непосредственно составляющих такое преобразование будет иметь вид:
NVN=>NV=>V.
3. Синтез синтаксической структуры выходного предложения. Для нашего простого примера она может быть двоякой:
- для предложения с глаголом-сказуемым в действительном залоге:
Nl(nomin) V(active) N2(accus.);
- для предложения с глаголом-сказуемым в страдательном залоге:
N2(nomin) V(passive) Nl (instr.).
После этапа трансфера следует этап лексического синтеза элементов выходного предложения, т.е. выбор эквивалентов по синтаксическим и семантическим признакам.
За лексическим синтезом следует графемный синтез (преобразование словарных форм переводных эквивалентов в соответствующие текстовые формы - в нужном падеже, лице, числе и т.д.). В результате выходное предложение принимает вид:
свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию) или
излучение (радиация) впитывается (абсорбируется / амортизируется / поглощается) свинцом (лотом / грузилом / проводником).
Так в общих чертах работает переводящий автомат второго уровня, построенный по схеме синтактико-семан-тического трансфера. Такой автомат строится для определенной пары языков и, как вы сами можете судить, использует алгоритмические процедуры анализа и синтеза на основе синтаксической и семантической информации.
Как уже говорилось, большинство коммерческих переводящих систем работает на этом принципе. В некоторых из них синтактико-семантическая информация более полная и алгоритмы анализа более тонкие, чем в других. Такие "электронные переводчики" переводят чуть лучше, чем их более примитивно устроенные "братья по классу", но в любом случае без привлечения фоновой информации они не в состоянии конкурировать с человеком.
Кроме схемы трансфера в переводящих системах второго уровня применяется также так называемый язык-посредник. Язык-посредник (interlingua, pivot language) -это некий универсальный код, с помощью которого можно единым образом выразить грамматическую и семантическую информацию, содержащуюся в тексте на любом языке.
Задача переводящего автомата, применяющего язык-посредник, будет состоять в том, чтобы преобразовать текст на одном языке в форму языка-посредника, а затем, используя средства другого языка, генерировать выходной текст из форматов языка-посредника.
Привлекательность этой идеи достаточно очевидна, но ее практическое воплощение оказалось очень непростым. И хотя некоторые зарубежные системы в своих рекламных буклетах пишут об использовании единого языка-посредника для автоматического перевода с разных языков, это, насколько мне известно, скорее рекламный прием, чем действительное положение вещей.
Описать в едином формате даже структурно подобные языки достаточно сложная задача сама по себе, не говоря уже о ее алгоритмической реализации. Поэтому в настоящее время, несмотря на обширный теоретический материал, едва ли можно говорить о коммерческих системах машинного перевода, работающих на принципе языка-посредника.
Такова ситуация с практической реализацией систем второго уровня.
Что же касается систем третьего уровня, то, как уже говорилось выше, экспериментальные системы такого типы разработаны лишь для некоторых очень ограниченных тематических сфер.
В этих системах окончательное решение о выборе переводного эквивалента принимается "блоком принятия решений" на основе так называемой базы знаний - формального описания фрагмента реального мира (его составляющих и отношений между ними). Сложность концептуальной и программной реализации таких систем, я думаю, очевидна.
Особое место в теории и практике машинного перевода занимают системы, основанные на статистических моделях переводных соответствий.
Согласно статистическому подходу к конструированию систем автоматического перевода, любое слово одного языка может быть переведено любым словом другого, только с разной вероятностью.
Задача переводящего автомата, работающего на вероятностном принципе достаточно проста.
На первом этапе, называемом этапом обучения, этот
автомат должен сравнивать оригинальные тексты и выполненные человеком переводы этих текстов и регистрировать величины вероятности разных переводных эквивалентов.
Параллельно на этапе обучения автомата в зависимости от используемой модели регистрируется либо порядок слов в исходном и переводном предложении, либо вероятность перевода двух-, трехсловных словосочетаний.
В итоге на основании анализа параллельных двуязычных текстов автомат после этапа обучения составляет словарь наиболее вероятных эквивалентов.
После этого следует этап перевода, когда автомат, пользуясь составленным таким образом вероятностным словарем, переводит новый текст. В случае неполноты словаря обучение автомата продолжают на новом массиве параллельных текстов.
Такова общая идея. Конечно, она представлена упрощенно - в действительности вычисление вероятности переводных эквивалентов производится по сложным многопараметрическим формулам, учитывающим текстовое окружение исходного и переводного слова.
Идея статистического машинного перевода появилась еще в пятидесятые годы, но сейчас она снова становится популярной. Возрождение идеи статистического машинного перевода можно объяснить следующим:
• Огромными технологическими возможностями современных компьютеров (память, быстродействие).
• Наличием больших объемов двуязычных параллельных текстов на машинных носителях.
• Отсутствием стройной и непротиворечивой теории перевода, которая смогла бы выдержать проверку на компьютерной модели.
Статистические модели перевода активно разрабатываются в США и в некоторых других странах, и, на мой взгляд, у них большое будущее.
Учитывая огромное число факторов, определяющих качество перевода (значительная часть которых либо не