Виталий Леонтьев - Microsoft Office
Как видим, для того чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций:
Сканирование. За эту работу отвечает, собственно, не программа OCR, а встроенное в систему программное обеспечение вашего сканера. Именно с его помощью вы можете задать нужные вам параметры сканирования – например, разрешение (рекомендуется 300 dpi), цветовой режим (для простых текстов достаточно черно-белого или LineArt) – и выделить ту область документа, которую вам необходимо «скопировать» в компьютер.
Сегментация. Полученную со сканера «картинку» подхватывает OCR-программа. Но до распознавания еще далеко – сначала надо отделить текстовые элементы от графики, да и текст в ряде случаев разбить на отдельные куски (например, при многоколоночной верстке).
Распознавание. На этом этапе текст переводится из графической формы в обычную текстовую.
Проверка орфографии и правка. Встроенная система проверки орфографии «проходится» по тексту, проверяя и корректируя последствия работы системы распознавания. Спорные слова и символы выделяются особым предупреждающим цветом. Потом наступает очередь пользователя, который также может внести свою лепту в этот ответственный процесс.
Сохранение. Для дальнейшей обработки документ должен быть передан «на поруки» соответствующей программе – как правило, одному из продуктов семейства Microsoft Office. Или сохранен в формате, соответствующем его содержанию: текст – в DOC или RTF, таблица – в XLS... Да и встроенную графику желательно в документе оставить...
Все эти операции в большинстве программ OCR могут выполняться как в автоматическом, с помощью программы-мастера, так и в ручном режиме, по отдельности. С двумя первыми и последней операциями с легкостью справится любая программа распознавания. А вот весь процесс целиком по зубам, увы, только нескольким продуктам, разработанным в нашей стране. Тут надо сделать небольшую поправку: на самом деле корректно работать с русским языком умеют практически все современные «распознавалки», вне зависимости от того, где они были разработаны. Более того, в состав Microsoft Office-2003 уже включена абсолютно бесплатная программа распознавания Microsoft Office Document Scanning! Однако для российских пользователей само понятие «программа распознавания текста» чаще всего неразрывно связано с программой FineReader. Ибо компания ABBYY смогла не просто создать удобный для пользователя и качественный продукт, но и, самое главное, удачно «раскрутить» его.
Одним из козырей FineReader является поддержка неимоверного количества языков распознавания – 176, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования (Basic, С/C++, COBOL, Fortran, Java, Pascal)! Так что FineReader сможет без запинки справиться с древнегреческим свитком или с бледными распечатками исходных текстов программ, сделанных вашими предками лет 30 назад. Как ни странно, большинство пользователей на деле интересуется совсем другим. Офисных работников интересует распознавание типовых форм документов, студентов – возможность быстро «передрать» для реферата многостраничный текст из учебника, сканируя и распознавая книжный разворот целиком, бухгалтеров – возможность автоматического распознавания таблиц и документов на бланках... Все это и многое другое FineReader умеет... или не все, а только частично, в зависимости от модификации продукта. Далеко не все возможности из нашего перечня включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений – для всего этого стоит приобрести профессиональную версию программы – FineReader Pro. Заодно она умеет безукоризненно читать штрихкоды, позволяет добавлять в базу данных новые языки. А самая мощная (и дорогостоящая) версия – FineReader Office – без труда справится и с распознаванием любых бланков и форм! Все версии FineReader, от самой простой до самой мощной, объединяет, на мой взгляд, главное достоинство программы – интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели инструментов программы. Все дальнейшие операции – сканирование, разбивку изображения на «блоки» и, наконец, собственно распознавание программа выполнит автоматически. Пользователю останется только установить нужные параметры сканирования – рекомендуется разрешение в 300 dpi и режим черно-белого изображения или LineArt. Впрочем, текст можно отсканировать и в цветном режиме: в этом случае FineReader сможет грамотно распознать цветовое выделение шрифтов и сохранить его в готовом документе.
После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов – от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel и уже там исправить все огрехи распознавания (без них обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документов и графическое оформление.
PROMT – перевод текста
Знание хотя бы одного иностранного языка необходимо сегодня всем, как воздух. В особенности пользователям: ведь избежать столкновения с английским языком на компьютерном поприще, увы, невозможно. Ладно, если бы дело касалось только файлов с документацией к программам (которые у нас традиционно никто не читает) или названий программных меню (ориентироваться в которых можно научиться и без знания языка, методом научного тыка и зубрежки). А как быть, скажем, с Интернетом? Без английского языка в Сеть и соваться не следует... Плохо, если вы не знаете иностранного языка... Однако горю вашему – отчасти – можно помочь, установив на компьютер одну из специализированных программ-переводчиков.
...Лет десять назад, когда автор этой книги только-только начинал свое знакомство с компьютером, одной из его любимых игрушек была маленькая программа Stylus, умевшая творить, по тем временам, вовсе невероятные вещи: за пару минут трудолюбивая «софтина» могла перевести любой текст с английского языка на русский! Конечно, качество перевода было, мягко скажем, не всегда адекватным... Но все же свою скромную задачу она выполняла. Шли годы. Stylus канул в Лету вместе с эпохой DOS, успев, однако, оставить наследников: ему на смену пришла линейка PROMT, в которой насчитывается уже восемь поколений переводческих программ. Надобно сказать, что поначалу разработчики сделали ставку исключительно на профессионалов. Однако со временем позиция компании изменилась – и теперь под маркой PROMT выпускаются продукты разного класса, отличающиеся как по функциональности, так и по цене.
Так, семейство PROMT 7.0 включает целых три версии пакета – Standard ($99–189), Expert ($600), Professional ($300) и Translation Suite ($400). Кроме того, компания выпускает и серию недорогих переводчиков домашнего класса, каждый из которых рассчитан на работу лишь с одной языковой парой. У каждой из программ семейства PROMT имеется свой собственный редактор. А старшие версии семейства еще и позволяют обеспечить перевод текста непосредственно в программах Microsoft Office – в них появляется новое меню PROMT и новая кнопочная Панель инструментов. Кроме того, новые версии PROMT встраивают команду Перевести и в контекстное меню Internet Explorer, благодаря чему вы можете с помощью одного щелчка мышью перевести содержание целой страницы (с полным сохранением оформления) либо отдельного абзаца – в этом случае его перевод будет помещен под оригинальным текстом и выделен особым цветом. Кстати, для перевода веб-страниц PROMT выпускает и отдельную программу – PROMT Internet Premium.
Несмотря на сильный разброс в цене и в количестве компонентов, все программы семейства PROMT используют одно и то же «ядро» механизма перевода. При этом все программы пакета (кроме двуязычной версии Promt Standard) поддерживают работу с несколькими направлениями перевода:
■ Английский-Русский, Русский-Английский.
■ Немецкий-Русский, Русский-Немецкий.
■ Французский-Русский, Русский-Французский.
■ Испанский-Русский, Русский-Испанский.
■ Итальянский-Русский.
Встроенная словарная база PROMT начитывает от 500 тысяч до миллиона слов (в зависимости от языка).
Кроме того, для перевода тематических текстов вы можете подключить дополнительные словари. Некоторые из них поставляются вместе с базовой программой. К примеру, стандартная версия Promt комплектуется следующими словарями:
■ Спорт (англо-русский).
■ Информатика (англо-русский).
■ Бытовая техника (англо-русский).
■ Музыка (англо-русский).
■ Парфюмерия и Косметика (англо-русский).