Коллектив Авторов - Цифровой журнал «Компьютерра» № 135
- Мне кажется, технологии распознавания текста — это достаточно важная вещь, которая влияет и будет влиять на механизмы взаимодействия человека с окружающей средой при помощи мобильных и стационарных компьютеров, а также мобильных телефонов.
Конечно, за десять лет произошли изменения в качестве самих технологий. Есть два направления развития: первое — улучшение обработки изображений, второе — переход на более высокий уровень абстракции в анализе обрабатываемого документа. Первое направление помогает охватить более широкий спектр источников изображений — например, сделать снимки, получаемые при помощи камер мобильного телефона, более пригодными для распознавания. Второе направление развития направлено на то, чтобы сократить время, затрачиваемое на форматирование текста документа после его распознавания.
Если раньше учёные бились над качеством распознавания одного символа или слова, то сейчас, если качество изображения достаточное, то речь идёт о том, что, пора подниматься на такой уровень абстракции, как весь документ, а не отдельная страница — стараться понять взаимосвязи элементов в документе и настроиться на ту задачу, которую решает потребитель. Если он сканирует и распознает документ, чтобы дальше с ним продолжить работу в текстовом или другом редакторе, это один сценарий. Другой сценарий — когда документ нужно проиндексировать для поисковой системы, третий — сохранить в виде изображения, которое бы передало изначальный внешний вид, а под ним текстовый слой, по которому можно производить поиск. Под каждый из этих сценариев улучшаются компоненты, взаимодействующие с базовой технологией распознавания.
Мобильное использование накладывает дополнительные требования по технологиям обработки изображения. Хоть камеры в телефонах и улучшаются, но по сравнению с обычным сканированием добавляется множество факторов: некачественное освещение, искривления и так далее. Мы, например, последние пять лет активно занимаемся тем, что расширяем количество возможных источников для получения изображений для ABBYY FineReader. В результате появляются приложения и для мобильных телефонов. Например, наш ABBYY TextGrabber я активно использую, когда читаю журналы: если хочу поделиться заметкой с друзьями или коллегами, то фотографирую, распознаю и сразу отправляю в Facebook или по почте. Также вместо МФУ начал активно использовать приложение ABBYY FineScanner для съёмки документов. Ещё несколько лет назад сделать это было сложно, потому что и камеры были хуже, и технологии ещё предстояло доработать.
- Какие ещё тенденции на рынке OCR вы можете выделить? Скажем, изменения спроса на разные языки или сегменты.
- Особых изменений нет. Определённые виды языков были недостаточно качественно реализованы до текущего момента времени. Например, мы начали относительно недавно заниматься китайским — он присутствует в ABBYY FineReader с десятой версии. Мы постоянно улучшаем распознавание всех языков, отдельно я бы выделил только группы языков китайский-корейский-японский.
- Для российского рынка?
- Нет, речь обо всём мире — для экспорта это куда более актуально, чем для нашего рынка. У нас же спрос не изменился: это смешанные документы, преимущественно на русском языке, с появлением слов на иностранных языках. Структура потребления в смысле обрабатываемых материалов тоже не изменилась. А чтобы завоевать передовые позиции в мире, мы работаем не только над повышение качества, но и над поддержкой новых языков. Например, над арабским — он уже появился у нас в одиннадцатой версии, и мы намерены сделать его распознавание лучшим в мире. Сегодня FineReader распознает документы на 189 языках, и это самый высокий показатель в мире.
- Какое соотношение потребления вашей продукции в России и за рубежом?
- Россия и СНГ дают от 20 до 25 процентов.
- Могут ли какие-то тенденции отрицательно повлиять на необходимость в технологиях распознавания? Например, процессорные мощности станут доступнее, и сократится надобность в технологиях распознавания?
- Исходя из того, что человек воспринимает информацию при помощи звука и зрения, в принципе, необходимость анализа текстовой информации вряд ли отпадёт. Вопрос в том, в каком виде эта информация будет поступать на вход. Например, сейчас такие вещи, как извлечение информации из окружающей нас действительности, решаются достаточно слабо. Есть компании, которые лицензируют технологии распознавания вывесок и знаков, чтобы программировать реагирование на них. Но пока это используется в ограниченном объёме. Я думаю, что повышение мощностей устройств, на которых происходит предобработка изображений, лучшее соединение их с интернетом и, наконец, бесконечные мощности, которые есть в «облаке», будут вести к повышению качества обработки любой картинки, которая попадёт на вход, будь это статичное фото или видеопоток. Если что-то и может повлиять негативно, то тот факт, что люди будут больше обмениваться электронной информацией.
- По сути, уже сейчас все документы набираются на компьютере.
- В последние несколько лет в США несколько уменьшаются объёмы производимой бумаги, но не объёмы генерации этой бумаги, если мы говорим о бизнес-транзакциях. Почему-то люди предпочитают физические носители. Если говорить о России, то я думаю, что у нас в ближайшее десятилетие будет только подъём бумажных носителей — как в повседневной жизни, так и в бизнесе. Тем более что необработанных архивов ещё великое множество. Но в итоге, конечно, электронный обмен данными приведёт к тому, что некоторые сценарии, скорее всего, отомрут и определённые данные будут храниться только в электронном виде. Но технология распознавания и там может оказаться полезной — к примеру, если вам из файла PDF нужно извлечь структурированную информацию. Можно попробовать извлечь текст, но по опыту могу сказать, что PDF настолько по-разному генерируются разными программами, что проще будет этот документ превратить в картинку и распознать.
- Как вы расцениваете угрозу появления бесплатных OCR? Google, к примеру, такой уже предоставляет.
- Мы зарабатываем достаточно много денег на применении этой технологии в бизнесе. И когда речь идёт о бизнесе, то продукт высокого качества бесплатно никто не раздаёт. И требования здесь довольно высоки: если, например, в документе приходится перепечатывать хотя бы несколько символов на каждой странице, то технология уже считается непригодной для использования в реальных условиях. Мы познакомились с тем, как работает распознавание на Google Docs. Идея хорошая, но сервису есть куда расти по качеству. Зато бесплатные решения могут популяризовать технологию в целом. Многим пользователям ещё нужно объяснять, чем отсканированный документ отличается от текста. Индивидуального пользователя может и устроить бесплатное решение, но он поймёт принцип. И если бесплатный продукт будет предоставлять недостаточное качество, то он воспользуется платным.
- То есть это ещё может оказаться плюсом?
- В принципе, да, нам кажется, что это скорее плюс, чем минус. Конечно, если Google будет вкладываться в улучшение этой технологии, не получая за это денег, то это усложнит нашу жизнь. Но у нас есть очень большой сегмент бизнес-применения технологии, а там помимо простого распознавания текста нужно извлекать разные наборы данных, сопоставлять их между собой. Если это многостраничный документ, то иногда нужно проверять самые разные вещи: сходится ли контрольная сумма, соответствуют ли значения на пятой странице значениям на первой и так далее. Это дополнительная бизнес-логика, которая накладывается сверху на процесс распознавания и задаётся специальным языком описания документов. За это организации (государственные или частные) готовы платить большие деньги, потому что иначе у них альтернатива только одна — дать эту работу человеку. А это куда менее эффективно.
- Но проверять-то всё равно надо, если такие важные документы.
- Да. Но дело в том, что технологии распознавания живут достаточно просто: неуверенно распознанные символы или те куски информации, которые между собой не согласуются, подсвечиваются, и их видит человек-оператор — ему не нужно даже смотреть документ целиком. Это экономит много времени. Учитывая, что количество и темпы роста информации с каждым годом принимают всё более угрожающие формы, мы думаем, что бизнес-применение у этой технологии как минимум достаточно светлое — на десяток-второй лет так точно. А дальше посмотрим.
- Как вы оцениваете другие рынки распознавания: распознавание речи, лиц, предметов на изображениях и так далее? Сейчас со всей этой шумихой вокруг дополненной реальности, возможно, был бы востребован такой сервис.