Компьютерра - Журнал "Компьютерра" №729
Татарникова приводит как доказательство от противного довольно известную разработку Dragon, принадлежащую фирме Nuance. Продаваемая этой компанией система диктовки для любого текста и любого пользователя требует перед началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря - задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре.
Существует в системе Dragon подстройка и под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, чтобы программа адаптировала параметры существующих акустических моделей.
В ЦРТ также ведется работа по созданию алгоритмов адаптации акустических моделей под голос диктора, но в принципе уже ясно: журналистам, которым приходится проводить интервью с разными людьми в разном окружении, рассчитывать особо не на что. Универсального продукта для русского языка ждать не стоит. Даже более простой (в контексте распознавания) английский язык специалистам пока не поддается. О записи неформальной беседы, кажется, нет и речи.
"Надеяться на быстрое появление мобильных и даже стационарных устройств для распознавания спонтанной речи (например, нашего с вами разговора) вряд ли стоит в ближайшее время, - говорит Марина Татарникова.
Спонтанная речь отличается более сложными языковыми и акустическими моделями. Кроме того, необходимы речевые базы спонтанной речи гораздо больших объемов".
Вопрос специализации"Определенный скепсис насчет систем распознавания речи, конечно, имеет место, - продолжает Татарникова.
- На самом же деле, в мире такие системы есть, и они замечательно работают. Например, их используют медицинские учреждения в США". Известно, что медицинским работникам постоянно требуется делать какие-то записи, будь то история болезни или протоколирование действий. Медики в США просто наговаривают текст, который автоматически переводится в машинный вид. Этот текст нуждается лишь в косметической правке. Соответствующие технологии есть, к примеру, у той же Nuance. То, что это хорошие системы, косвенно подтверждает Алексей Хитров:
"У одной Nuance - капитализация 5 млрд. долларов. Это на три порядка больше, чем мы смогли вложить в наши разработки. Обращаю внимание на то, что и у них наибольших успехов достигли системы, работающие на ограниченных специализированных словарях. По разным данным, объем продаж только медицинских систем распознавания речи в США составляет 12–15 млрд. долларов".
В ЦРТ тоже планируют зарабатывать именно на специальных воплощениях своей системы распознавания, то есть компании интересен прежде всего корпоративный рынок. Правда, не факт, что первыми с новыми технологиями ознакомятся медики. В Америке создание речевых баз для систем распознавания было государственным проектом, чего не скажешь о российских разработках. Интерес, конечно, у наших медиков тоже есть, но нет государственной заинтересованности, чтобы оплачивать дорогостоящие исследования.
"И акустические, и языковые модели, а также алгоритмы для декодера - у нас собственной разработки", - говорит Хитров. По его словам, решение для диктовки текста будет готово в течение года. Сейчас ЦРТ доделывает программу Voice Digger для Auto Data Mining (поиск ключевых слов в звуковых файлах), а также готов представить распознавание команд для IVR [Interactive voice response.] -систем (управление голосом).
Из всей этой группы готовящихся или почти готовых продуктов самой массовой кажется система для диктовки.
Она призвана сделать реальностью голубую мечту многих людей, желающих диктовать компьютеру текст, а не набирать вручную. Однако в ЦРТ повторяют, что такие системы эффективны лишь при работе с тематически ограниченным словарем. Впрочем, электронного писаря Центр пока в люди не выводит, зато мне удалось немного поработать с другими программами, благо базируются они на одной и той же технологии.
На испытательном полигонеСистема IVR используется в самом ЦРТ для автоматического перенаправления входящих звонков. Тест прошел на ура, но как-то не впечатлил: автосекретарь вместо привычного "нажмите 1 или 2" говорил "скажите 1 или 2".
Наверное, можно реализовать и более сложные системы такого типа, но рука тянулась к клавиатуре телефона - привычка.
Система голосовой верификации "Голосовой замок" (Voice key) призвана контролировать доступ к чему угодно: к компьютеру, к папке на диске, к сайту. В ЦРТ, например, сотрудники произносят пароль, если нужно выйти в Интернет.[Удивляет не столько технология, сколько применение. - Прим. ред.] Банальным повтором ключевой фразы обойти систему не удалось. Не удалось этого сделать и с помощью записи ключевой фразы на диктофон с последующим воспроизведением через встроенный динамик, хотя, конечно, это был примитивный способ, но студийного микрофона и качественных динамиков поблизости не оказалось. Voice key требует произносить ключевую фразу в одной манере, микрофон следует держать примерно на одном и том же расстоянии ото рта. Система может быть чувствительной к замене микрофона или изменению тембра голоса при, скажем, простуде и, что интересно, не примет абсолютного полного совпадения с образцом, полагая это подвохом.
Для теста Voice digger мы запустили 23-секундный фрагмент новостной передачи, состоящий из двух частей: репортажа корреспондента с улицы и комментария диктора из студии. Ключевое слово, выбранное для поиска по записи, состояло из восьми слогов. При указании ключевого слова в программе нужно отметить ударную гласную. Поскольку ключевое слово нарочно было выбрано так, чтобы оно пришлось на часть записи, сделанную на улице, поиск результатов не дал: акустические модели действующей системы соответствуют или близки к студийной записи.
"При распознавании ключевой фразы или слова длиной пять-шесть слогов эффективность работы системы - 86%, - рассказывает Марина Татарникова. - Снижение количества слогов увеличивает количество ложных срабатываний, но при этом, как правило, нужный фрагмент тоже находится". Поиск пока чувствителен к различным словоформам. Однако, уверяют в ЦРТ, нет ничего сложного в том, чтобы заставить систему автоматически формировать все варианты слова [Но тут, думается, все зависит от реализации. Если система вместо одного слова будет искать десять его форм как независимые слова, то время поиска увеличится на порядок. С другой стороны, можно просто искать основу слова] .
Второй тест для Voice digger состоял в работе с файлом, записанным непосредственно перед испытанием через микрофон. Текст был произвольным, и специалисты ЦРТ не накладывали на него никаких ограничений. В импровизированной речи длительностью 28 секунд одновременно искались единожды упомянутые в ней словосочетания "Московский вокзал" и "разведение мостов", произнесенные, как и все остальное, не слишком внятно. Поиск длился примерно то же время, что и сам звуковой файл. Оба словосочетания были найдены. После несложной подстройки системы в том же файле следом производился поиск слова "вокзал", короткого и заведомо неудобного для системы. Слово было найдено, но было и около десятка сложных срабатываний. Поиск длился секунд двадцать. После еще одной подстройки слово "вокзал" было найдено, но уже без ложных срабатываний.
Обращает на себя внимание, что время поиска сравнимо с длительностью записи. Если поиск будет проходить в большом банке звуковых файлов, то, возможно, процесс займет много времени. Впрочем, проверить эту гипотезу было просто не на чем, к тому же, вероятно, этот неприятный момент можно как-то оптимизировать.
Есть ли у этой технологии будущее? Как сказал Алексей Хитров, нужно разделять технологию и продукты на ее основе. Конечно, было бы здорово облегчить труд российским медикам или другим специалистам. И работы впереди - непочатый край. Распознавание слитной речи для всех и каждого в виде банального набора текста пока так и остается мечтой, огороженной множеством "если". Распознавание, очевидно, связано со сложными вычислениями и большими базами данных, и очень хочется посмотреть на то, как такую систему можно реализовать в карманном устройстве. Ну а переводчики для Олимпиады - это, без сомнения, утопия. Даже если оставить в стороне звук - вы еще верите в качественный машинный перевод?
ПИСЬМОНОСЕЦ: Letter-carrier
Автор: Владимир Гуриев
Открываю тут я "КТ" #728 и начинаю, как водится, с "13-й комнаты". Правильно, думаю, пишет, заместитель главного редактора все-таки, следит за культурой печатного слова. И тут пилой по глазам - "нарабатываемые скиллы". Сначала даже не понял, о чем речь. Потом, конечно, понял, но ощущение дисгармонии преследовало меня вплоть до стр. 18, где Б. Киви упоминает "обратную инженерную разработку карты Mifare Classic". Заметьте, не "реверс-инжиниринг", а именно "обратную инженерную разработку". Так что Б. Киви, что называется, плюс один, а В. Гуриеву - врач, исцелися сам! То есть - редактор, не пишите, пожалуйста, на русском по-английски!