Розпізнавання тексту. Безкоштовна програма

Рано чи пізно, всі хто часто працює з офісними програмами, стикаються з типовою завданням – відсканувати текст з книги, журналу, газети, просто листочків, а потім перевести ці зображення в текстовий формат, наприклад, документ Word.

Щоб це зробити необхідний сканер і спеціальна програма для розпізнавання тексту. У цій статті піде мова про безкоштовне аналогу FineReader – CuneiForm (про розпізнаванні в FineReader – див. в цій статті).

Почнемо…

Зміст:

1. Особливості програми CuneiForm, можливості
2. Приклад розпізнавання тексту
3. Пакетне розпізнавання тексту
4. Висновки

Зміст

1. Особливості програми CuneiForm, можливості

CuneiForm

Скачати можна з сайту розробника: http://cognitiveforms.com/

Програма для розпізнавання тексту з відкритим вихідним кодом. До того ж, працює у всіх версіях Windows: XP, Vista, 7, 8, що радує. Плюс до цього додайте повний російський переклад програми!

Плюси:

– розпізнавання тексту на 20 найбільш популярних мовах світу (англійська та російська само собою входить в це число);

– величезна підтримка різних друкарських шрифтів;

– перевірка за словником розпізнаного тексту;

– можливість збереження результатів роботи в кількох варіантах;

– збереження структури документа;

– відмінна підтримка і розпізнавання таблиць.

Мінуси:

– не підтримує занадто великі документи і файли (понад 400 dpi);

– не підтримує на пряму деякі типи сканерів (ну це не страшно, в комплект до драйверів сканера йде і спец. програма для сканування);

– дизайн не блищить (але кому він потрібен, якщо програма повною мірою вирішить завдання).

2. Приклад розпізнавання тексту

Будемо вважати, що необхідні картинки для розпізнавання ви вже отримали (відсканували там, або скачали в інтернеті книгу в форматі pdf/djvu і дістали з них потрібні картинки. Як це зробити – див. в цій статті).

1) Відкриваємо потрібну картинку в програмі CuineForm (файл/відкрити або “Cntrl+O”).

2) Щоб приступити до розпізнавання – потрібно спочатку виділити різні області: тексту, графіки, таблиць та ін. У програмі Cuneiform це можна зробити не тільки в ручну, але і автоматично! Для цього клацніть по кнопці “розмітка” у верхній панелі вікна.

3) Через 10-15 сек. програма автоматично підсвітить всі області різними кольорами. Наприклад, область тексту виділяється синім кольором. До речі, подсветила вона все правильно області і досить швидко. Чесно кажучи, не очікував від неї такої швидкої та правильної реакції…

4) Для тих, хто не довіряє автоматичної розмітки, можна скористатися і ручний. Для цього є панелька інструментів (див. малюнок нижче), завдяки якій можна виділити: текст, таблиці, зображення. Пересунути, збільшити/зменшити початкове зображення, підрізати краю. Загалом, непоганий набір.

5) Після того, як всі області були розмічені, можна приступити до розпізнаванню. Для цього просто клацніть по однойменній кнопці, як на картинці нижче.

6) Буквально через 10-20 сек. перед вами відкриється в Microsoft Word документ з розпізнаним текстом. Що цікаво, в тексті для цього прикладу, помилки, звичайно, були, але їх дуже не багато! Тим більше, враховуючи в якому непоказному як був вихідний матеріал – картинка.

По швидкості і якості цілком порівнянно з FineReader!

3. Пакетне розпізнавання тексту

Ця функція програми може стане в нагоді, коли вам потрібно розпізнати не одну картинку, а відразу декілька. Ярлик для запуску пакетного розпізнавання, зазвичай, захований в меню “пуск”.

1) Після відкриття програми, вам потрібно створити новий пакет, або відкрити раніше збережений. У нашому прикладі – створимо новий.

2) На наступному кроці даємо йому назву, бажано таке, щоб і через півроку згадати що в ньому збережено.

3) Далі вибираєте мову документа (російсько-англійський), вказуєте, чи є у вашому відсканованому матеріалі картинки і таблиці.

4) Тепер треба вказати папку, в якій розташовані файли для розпізнавання. До речі, що цікаво, програма сама знайде всі картинки та інші графічні файли, які вона зможе розпізнати і додати їх в проект. Вам же залишиться видалити зайві.

5) Наступний крок не важливий – вибираєте що робити з вихідними файлами, після розпізнавання. Рекомендую вибрати галочку “нічого не робити”.

6) Залишилося лише вибрати формат, в якому буде збережено розпізнаний документ. Є кілька варіантів:

– rtf – файл word, відкривається усіма популярними офісами (в тому числі і безкоштовними, посилання на програми);

– txt – текстовий формат, в ньому можна зберегти лише текст, малюнки і таблиці не можна;

– htm – гіпертекстова сторінка, зручно, якщо ви скануєте і розпізнаєте файли для сайту. Його і виберемо в нашому прикладі.

7) Після натискання кнопки “готово” запуститься процес обробки вашого проекту.

Програма працює досить таки швидко. Після розпізнання перед вами з’явиться вкладка з файлами htm. Якщо клацнути по такому файлу запуститися браузер, де ви зможете побачити результати. До речі, пакет можна зберегти для подальшої роботи з ним.

9) Як видно, результати роботи вельми вражаючі. Картинку програма легко розпізнала, а під нею легко розпізнала текст. При тому що програма безкоштовна – то взагалі супер!

4. Висновки

Якщо ви часто не займаєтеся скануванням і розпізнаванням документів, то купувати програму FineReader, напевно, не має сенсу. З більшістю завдань легко справляється CuneiForm.

З іншого боку, є у неї і мінуси.

По-перше, дуже мало інструментів для редагування і перевірки отриманого результату. По-друге, коли доводиться розпізнавати багато картинок в FineReader зручніше відразу бачити в колонці праворуч все, що було додано у проект: швидко видаляти зайве, вносити правки пр. І третє, на документах зовсім вже поганої якості, CuneiForm програє в якості розпізнавання: доводиться документ доводити до розуму – ред шибки, ставити розділові знаки, лапки і т. д.

На цьому все. А ви знаєте якусь ще гідну безкоштовну програму для розпізнавання тексту?