Лабораторна робота №5 (4 год.)

Матеріал з Вікі ЦДУ
Перейти до: навігація, пошук

Тема: “Обробка сканованих документів ”

Після сканування необхідно проглянути всі сторінки і переконатися, що немає явних огріхів. Наприклад, іноді через недогляд книга нерівно лягла на скло сканера і частина тексту на будь-якій сторінці не пройшовся по, або були зовсім пропущені деякі сторінки. Після цього можна архівувати відскановані зображення і приступати до обробки. Оскільки сканування - фізично самий трудомісткий етап, рекомендується тримати резервну копію всіх вихідних сканів (такими, якими вони були до обробки) на випадок якого-небудь збою.

Ентузіасти підготували повні докладні інструкції з обробки відсканованих зображень і створення електронних книг - дивіться посилання внизу сторінки. Які головні завдання обробки? Вони залежать від того, ставимо ми метою створення векторного файлу або растрового файлу. Для створення векторного файлу проводиться розпізнавання (OCR) тексту і його подальше редагування вручну в текстовому процесорі (такому, як MS Word або Adobe Pagemaker). Кінцевим продуктом зазвичай є зверстана книжка у форматі PDF. Для створення растрового файлу необхідна доведення графічних зображень до високого ступеня стиснення і якості, а розпізнавання (OCR) провадиться лише начорно, без вичитки та редагування тексту, в самому кінці процесу. Обробка графічних зображень здійснюється зазвичай в пакетному режимі, так що не потрібно обробляти кожну сторінку вручну в Photoshop'e чи іншому графічному редакторі. Тому витрати часу на створення растрової електронної книги набагато менше, ніж на створення векторної книги.

Графічна обробка сканів складається з наступних основних кроків:

  • Перетворення сірих сканів в чорно-білі (якщо вихідні скани були сірими в 300 dpi, то після цього виходять чорно-білі в 600 dpi)
  • Розрізування розворотів на два зображення окремих сторінок (якщо книгу сканували в розвороті)
  • Поворот зображення кожної сторінки, щоб текст став по можливості горизонтальним
  • Відрізання непотрібних темних смуг на краях, створення рівних і однакових для всіх сторінок білих полів
  • Очистка «бруду» на сторінках (включаючи помарки від руки, штапми та інше)

Ці кроки частково автоматизовані в програмі «Scan Kromsator» (Windows) та описані в інструкції «Scan and Share» (дивіться посилання внизу сторінки). Однак якщо Scan Kromsator здався для вас занадто складним, ви можете скористатися Scan Tailor (посилання на неї внизу сторінки).

Після створення чистової версії всіх сторінок книги, які поки що зберігаються в окремих графічних файлах, приступають до стиснення всіх сторінок в єдиний файл формату DJVU або PDF.

Файли PDF і DJVU можуть використовувати різні ступені стиснення. Найбільша стиск досягається у форматі DJVU (алгоритм JBIG2), якщо текст чорно-білий, відсканований чітко (це сильно залежить від фізичного стану вихідної книги), шрифт не занадто дрібний, а краї букв рівні (не рвані). Формат PDF дозволяє стискати як алгоритмом JBIG2 (при цьому розмір виходить на 20-30% більше, ніж розмір DJVU), так і менш ефективними алгоритмами, наприклад TIFF-G4. Розмір PDF файлу після стиснення PDF/TIFF-G4 приблизно в 4-8 разів більше, ніж у PDF/JBIG2.

Є програми для створення добре стислих DJVU і PDF/JBIG2 файлів. Для формату DJVU це комерційні програми від LizardTech: DjvuSolo і Djvu Document Editor. Для формату PDF це комерційна версія Adobe Acrobat (не Reader). Є і безкоштовні програми для створення DJVU і PDF/JBIG2, але вони поки не дають настільки гарного стиснення, як комерційні версії. Полубесплатная програма CPCtool, використовувана як проміжний етап перед остаточним стисненням, дозволяє трохи поліпшити стиск DJVU (10-30%) і в багатьох випадках згладити «кошлаті» контури літер.

Після створення остаточної чистової версії книги робиться розпізнавання тексту (OCR). Розпізнавання тексту на більшості мов можна робити як комерційної версією Djvu Document Editor (для DJVU), так і широко поширеною програмою FineReader (для PDF). Є також безкоштовний софт (утиліта DjvuOCR) для вставки OCR-шару в DJVU файли після розпізнавання в програмі FineReader. З досвіду, FineReader дає кращу якість розпізнавання, ніж Djvu Document Editor (який використовує движок IRIS). Ознайомлювальні або демо-версії цих програм можна отримати на офіційних сайтах виробників.

Є також можливість автоматично додати гіпертекстові посилання в зміст і індекс DJVU-книги. Це робить безкоштовна утиліта Djvu Hyperlink Editor.

Також в Djvu-книгу можна додати зміст у вигляді ієрархічного дерева за допомогою безкоштовної утиліти Djvu Bookmarker.


Комп’ютерна обробка текстів