Интернет-журнал "Домашняя лаборатория", 2007 №9 - Журнал «Домашняя лаборатория»
Проиллюстрируем соотношение размеров PDF и DJVU файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript). Иногда векторные PDF файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3–4 раза при переводе в DJVU.
Именно технические достоинства формата DJVU и возможность автоматизировано обрабатывать DJVU файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.
Приспособления для сканирования
Получать изображение документа можно сканером или фотоаппаратом. Качественных различий[4] между ними нет, но и у сканеров, и фотоаппаратов есть свои достоинства и недостатки.
Достоинства фотоаппаратов
• Скорость сканирования — мгновения.
• Можно снимать где угодно, хоть прямо в библиотеке.
• Фотографировать можно не только бумажки[5].
Их недостатки
• Низкое разрешение; необходимость съёмки частями (и склейки частей) для получения хорошего качества.
• Неизбежное широкоугольное искажение (выпуклость или дисторсия) изображения, пагубность которого важна для иллюстраций.
• Сложно настраивать для достижения высокого качества.
* * *
Достоинства сканеров
• Высочайшее качество цветопередачи.
• Высокая разрешающая способность.
• Полное отсутствие искажений в случае плоских и плотно прилагаемых документов
Их недостатки
• Относительно низкая скорость.
• Величина и громоздкость, за исключением ручных сканеров.
• Большие различия моделей, приводящие к невозможности описания простого алгоритма настройки.
• Ограниченность размера; иногда — невозможность качественно отсканировать большой лист по частям.
Теперь подробнее обо всех упомянутых особенностях.
Фотоаппарат
Скорость сканирования полностью настроенным фотоаппаратом ограничивается в основном скоростью, с которой пользователь может сменять оригиналы перед объективом и жать на кнопку съёмки. То, что можно пристроиться в тихом уголке библиотеки и там работать сколько душе угодно — экспериментальный факт. Но проблемы начинаются, если потребовать хотя бы минимального качества получаемых документов. Печать на современных принтерах идёт с разрешением от 300 (отмирает) до 2400 (и даже до 4800 в новейших моделях фотопринтеров) точек на дюйм (dots per inch, далее сокращённо dpi). Чтобы получить качественный отпечаток размера 1:1, необходимо иметь оригинал, оцифрованный с тем же разрешением. Таким образом, мы приходим к размеру оригинала, который может за раз оцифровать фотоаппарат, к примеру в 6 мегапикселей с минимально допустимым качеством:
в ширину
3000 пикселей / 300 точек на дюйм * 2,54 см на дюйм = 25,4 см,
и в высоту
2000 пикселей / 300 точек на дюйм * 2,54 см на дюйм = 16,9 см.
Теперь немного стандартов: лист формата А4 имеет размеры 297х210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. Даже часто практикуемая последующая вычитка текста, хотя и снижает количество ошибок, не помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на печатный лист, т. е. на 40000 знаков).
Если обеспечивать достойное качество изображения, то получается, что нужно фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.
Однако после получения изображений кусками их необходимо склеивать. Для панорамных пейзажных снимков существуют программы, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений, но они специфичны и в основном представляют собой военные или технические, не бесплатные, разработки для получения полных карт или чертежей. Во всяком случае, опыт их использования в качестве генераторов полных изображений у автора отсутствует.
Второй способ сшивки — это знаменитый Фотошоп или его бесплатный аналог GIMP (Гимп). Удобно, но не автоматизируемо, причём никак.
Дополнительная проблема — для получения частичных изображений необходимо двигать оригинал или фотоаппарат. В любом случае изменяются условия: либо освещённость поверхности, либо угол зрения. Из-за этого, а также стандартной для фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Теоретически, конечно, можно соорудить специальный штатив с источниками подсветки для уничтожения этих искажений, но система будет монструозной и к использованию потому не пригодной (разве что в домашних условиях, а при этом теряется основа удобства фотоаппарата — его мобильность).
Далее — "шевелёнка". Держащие фотоаппарат руки дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка не должна превышать обратного фокусного расстояния. При неидеальных условиях съёмки, что в библиотеке обычно, выдержка будет относительно высокой, и последствия "шевелёнки" проявятся.
Из этого вывод: штатив при съёмках очень желателен. Нужны также два источника подсветки — справа и слева — для устранения теней на развороте. Но если последующее распознавание текста не требуется, можно обойтись и ручной съёмкой с данным освещением.
Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат. Для выдерживания постоянного характера снимков для их последующей пакетной обработки необходимо выдерживать одинаковую диафрагму, фокусировку и выдержку. Отнюдь не все фотоаппараты позволяют зафиксировать сразу все эти параметры, кроме того, обычно их необходимо фиксировать вручную, а чтобы их правильно подобрать, надо быть умелым фотографом и знать свой фотоаппарат.
При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какой-нибудь десяток-другой снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6x4=24 Мб данных за раз,