Сканування і розпізнавання тексту

Добрий день.

Напевно, кожен з нас стикався з завданням, коли потрібно перевести паперовий документ в електронний вигляд. Особливо це часто потрібно робити тим хто навчається, працює з документацією, переводить тексти за допомогою електронних словників і т. д.

У цій статті мені хотілося б поділитися деякими азами цього процесу. Взагалі, сканування і розпізнавання тексту – досить трудомістко, так, як більшість операцій доведеться робити вручну. Ми спробуємо розібратися з кроків, що, як і чому.

Не всі відразу розуміють одну річ. Після сканування (пригону всіх листів на сканері) у вас будуть картинки формату BMP, JPG, PNG, GIF (можуть бути і інші формати). Так от з цієї картинки потрібно отримати текст – це процедура називається розпізнаванням. У такому порядку і буде виклад нижче.

Зміст:

1. Що потрібно для сканування і розпізнавання?
2. Параметри сканування тексту
3. Розпізнавання тексту документа
3.1 Текст
3.2 Картинки
3.3 Таблиці
3.4 Непотрібні елементи
4. Розпізнавання файлів PDF/DJVU
5. Перевірка помилок і збереження результатів роботи

Зміст

1. Що потрібно для сканування і розпізнавання?

1) Сканер

Для переведення друкованих документів в текстовий вид, вам потрібний сканер і відповідно, “рідні” програми і драйвери, які з ним йшли. За допомогою них можна буде сканувати документ і зберегти його для подальшої обробки.

Можна скористатися і іншими аналогами, але софт, який йшов в комплекті зі сканером, зазвичай працює швидше і має більше опцій.

В залежності від того, який у вас сканер – швидкість роботи може істотно розрізнятися. Є сканери, які можуть отримати картинку з листа за 10 сек., є які будуть отримувати за 30 сек. Якщо скануєте книгу на 200-300 листів – думаю, не важко підрахувати у скільки разів буде різниця у часі?

2) Програма для розпізнавання

У нашій статті я буду показувати вам роботу в одній з кращих програм для сканування і розпізнавання будь-яких документів – ABBYY FineReader. Т. к. програма платна, то відразу дам посилання і на іншу – її безкоштовний аналог Cunei Form. Правда, я б не став їх порівнювати, зважаючи на те, що FineReader виграє за всіма параметрами, рекомендую все ж спробувати саме її.

ABBYY FineReader 11

Офіційний сайт: http://www.abbyy.ru/

Одна з кращих програм в своєму роді. Вона призначена для того, щоб розпізнати текст на зображенні. Вбудовано безліч опцій і функцій. Може розібрати купу шрифтів, підтримує навіть рукописні варіанти (правда, особисто не пробував, думаю, добре навряд чи буде розпізнавати рукописний варіант, якщо тільки у вас не ідеальний каліграфічний почерк). Більш докладно про роботу з нею буде розказано нижче. Тут же відзначимо, що у статті буде розказано про роботу в програмі 11 версії.

Як правило, різні версії ABBYY FineReader не сильно відрізняються один від одного. Ви без праці зробите те ж саме і в іншій. Головні відмінності можуть бути в зручності, швидкості роботи програми та її можливості. Наприклад, більш ранні версії відмовляються відкривати PDF і DJVU…

3) Документи для сканування

Так, ось так от, вирішив винести документи окремою графою. У більшості випадків сканують якісь підручники, газети, статті, журнали тощо, тобто ті книги і ту літературу, яка користується попитом. Я це до чого веду? З особистого досвіду можу сказати, що багато чого, що ви захочете сканувати – можливо вже є в мережі! Скільки разів особисто я економив час, коли знаходив ту чи іншу книгу вже скановану в мережі. Мені залишалося тільки скопіювати текст в документ і продовжити з ним роботу.

З цього проста порада – перш ніж що-то сканувати, перевірте, може вже хтось відсканував і вам не потрібно втрачати свій час.

2. Параметри сканування тексту

Тут я не буду розповідати про ваші драйвери для сканера, програмах, які разом з ним йшли, бо всі моделі сканерів різні, теж скрізь різне і вгадати і тим більш наочно показати як виконувати операцію – нереально.

Але у всіх сканерах є одні і ті ж налаштування, які можуть сильно вплинути на швидкість і якість вашої роботи. Ось про них таки якраз і поговоримо тут. Буду перераховувати по порядку.

1) Якість сканування – DPI

По-перше, якість сканування поставте в опціях не нижче 300 DPI. Бажано навіть виставити більше, якщо це можливо. Чим вище показник DPI – тим чіткіше вийти ваша картинка, ну і тим самим, швидше пройде подальша обробка. До того ж чим вище якість сканування – тим менше помилок вам потім доведеться виправляти.

Оптимальний варіант забезпечує, зазвичай, 300-400 DPI.

2) Кольоровість

Цей параметр дуже сильно впливає на час сканування (до речі, DPI теж впливає, але ті так сильно, і тільки коли користувач ставить високі значення).

Зазвичай виділяють три режими:

– чорно-білий (відмінно підійде для простого тексту);

– сірий ( підійде для тексту з таблицями і малюнками);

– кольоровий (для кольорових журналів, книг, загалом, документів, де важлива кольоровість).

Зазвичай від вибору кольору залежить час сканування. Адже якщо документ у вас великий, то навіть зайві 5-10 секунд на сторінці в цілому виллються в пристойний час…

3) Фотографії

Документ ви можете отримати не тільки скануванням, але і сфотографувавши його. Як правило, в цьому випадку у вас будуть деякі інші проблеми: спотворення картинки, розмиття. З-за цього може знадобитися більш тривала подальша редагування та обробка отриманого тексту. Особисто я не рекомендую користуватися фотоапаратами для цієї справи.

Важливо відзначити, що не кожен такий документ вийде розпізнати, оскільки якість сканування у нього може бути вкрай низьким…

3. Розпізнавання тексту документа

Будемо вважати, що заповітні скановані сторінки ви отримали. Найчастіше вони являють собою формати: tif, bmb, jpg, png. Загалом-то, для ABBYY FineReader – це не сильно важливо…

Після відкриття в ABBYY FineReader картинки, програма, як правило, на автоматі починає виділяти області і розпізнавати їх. Але іноді вона робить це не правильно. Для цього ми і розглянемо виділення потрібних областей вручну.

Важливо! Не всі відразу розуміють, що після відкриття документа в програмі, зліва у вікні відображається вихідний документ, в якому ви і виділяєте різні області. Після натискання на кнопку “розпізнавання” програма у вікні праворуч виведе вам готовий текст. Після розпізнавання, до речі, доцільно перевірити текст на помилки в тому ж самому FineReader.

3.1 Текст

Ця область використовується для виділення тексту. Рисунки та таблиці потрібно виключати з неї. Рідкісні і незвичайний шрифти доведеться вводити вручну…

Для виділення текстової області, зверніть увагу на панель у верхній частині FineReader. Там є кнопка “Т” (див. скріншот нижче, вказівник мишки якраз на цій кнопці). Натискаєте на неї, потім на картинці нижче виділяєте акуратно прямокутну область, у якій розташовується текст. До речі, в деяких випадках потрібно створювати текстових блоків по 2-3, а іноді 10-12 на сторінку, т. к. форматування тексту може бути різним і одним прямокутником всю область не виділити.

Важливо відзначити, що в текстову область не повинні потрапляти картинки! Надалі це заощадить вам купу часу…

3.2 Картинки

Використовується для виділення картинок і тих областей, які важко розпізнати з-за поганої якості, або незвичайності шрифту.

На скріншоті нижче вказівник мишки на кнопці, що використовується для виділення області “картинка”. До речі, в цю область можна виділити абсолютно будь-яку частину сторінки, а FineReader вставить її потім в документ як звичайну картинку. Тобто просто “тупо” скопіює…

Зазвичай цю область використовують для виділення погано відсканованих таблиць, для виділення нестандартного тексту та шрифту, само-собою картинок.

3.3 Таблиці

На скріншоті нижче показана кнопка для виділення таблиць. Взагалі, особисто я її використовую вкрай рідко. Справа в тому, що вам доведеться досить рутинно малювати (фактично) кожну лінію на таблиці і показувати, що і як програмі. Якщо таблиця невелика і в не дуже гарному якості, я рекомендую для цих цілей використовувати область “картинка”. Тим самим ви заощадите купу часу, а таблицю можна потім в Word зробити швиденько на основі картинки.

3.4 Непотрібні елементи

Важливо відзначити. Іноді на сторінці є непотрібні елементи, які заважають розпізнати текст, або взагалі не дають вам виділити потрібну область. Їх можна за допомогою “ластику” видалити зовсім.

Для цього переходимо в режим редагування зображення.

Вибираємо інструмент “гумка” і виділяємо потрібну область. Вона зітреться і на її місці буде білий аркуш паперу.

До речі, рекомендую вам використовувати цю опцію як можна частіше. Намагайтеся всі текстові області які ви виділили, де вам не потрібен шматок тексту, або присутні будь-які непотрібні точки, розмитості, спотворення видаляти гумкою. Завдяки цьому процес розпізнавання буде швидше!

4. Розпізнавання файлів PDF/DJVU

Взагалі, цей формат розпізнавання не буде відрізнятися нічим іншим від інших – тобто працювати з ним можна так само, як з картинками. Єдине, програма не повинна бути занадто старою версією, якщо файли PDF/DJVU у вас не відкриваються – оновити версію до 11.

Невеликий рада. Після відкриття документа FineReader – він автоматично почне розпізнавати документ. Часто у файлах PDF/DJVU певна область сторінки не потрібна у всьому документі! Щоб видалити таку область на всіх сторінках зробіть наступне:

1. Зайдіть в розділ редагування зображення.

2. Увімкніть опцію “обрізки”.

3. Виділіть область, потрібну вам на всіх сторінках.

4. Натисніть кнопку застосувати до всіх сторінок і обріжте.

5. Перевірка помилок і збереження результатів роботи

Здавалося б, які ще можуть бути проблеми, коли всі області були виділені, потім розпізнані – бери та зберігай… Не тут то було!

По-перше, потрібна перевірка документа!

Щоб її включити, після розпізнавання, у вікні праворуч, буде кнопка “перевірка”, див. скріншот нижче. Після її натискання програма FineReader буде автоматично показувати вам ті області, де у програми виникли помилки і вона не змогла достовірно визначити той або інший символ. Вам залишиться тільки вибирати, або ви згодні з думкою програми, або введіть свій символ.

До речі, в половині випадків, приблизно, програма буде вам пропонувати готове правильне слово – вам залишиться тільки вибрати мишкою потрібний варіант.

По-друге, після перевірки вам потрібно вибрати формат, в який ви збережіть результат своєї роботи.

Тут FineReader дає вам розвернутися на повну котушку: можна просто передати інформацію в Word один в один, а можна зберегти в одному з десятків форматів. Але хотілося б виділити інший важливий аспект. Який формат б не вибрали, важливо вибрати тип копії! Розглянемо найцікавіші варіанти…

Точна копія

Всі області, які виділяли на сторінці в розпізнаному документі будуть відповідати точнісінько вихідного документу. Дуже зручний варіант, коли вам важливо не втратити форматування тексту. До речі, шрифти будуть дуже схожі на оригінал. Рекомендую при такому варіанті передавати документ у Word, щоб вже там продовжити подальшу роботу.

Редагована копія

Цей варіант хороший тим, що ви отримаєте вже форматований варіант тексту. Тобто відступів з “кілометр”, які можливо були в первинному документі – ви не зустрінете. Корисна опція, коли ви будете значно редагувати інформацію.

Правда, не варто вибирати, якщо вам важливо зберегти стилістику оформлення, шрифти, відступи. Іноді, якщо розпізнавання пройшло не дуже успішно – ваш документ може перекосити” через зміненого форматування. В цьому випадку доцільно вибрати точну копію.

Простий текст

Варіант для тих, кому потрібний просто текст зі сторінки без всього іншого. Підійде для документів без малюнків і таблиць.

На цьому стаття по сканування та розпізнавання документа підійшла до кінця. Сподіваюся, що за допомогою цих простих порад ви зможете вирішити свої завдання…

Удачі!