Розпізнавання тексту. Безкоштовна програма — аналог FineReaderРано чи пізно, всі хто часто працює з офісними програмами, стикаються з типовою завданням – відсканувати текст з книги, журналу, газети, просто листочків, а потім перевести ці зображення в текстовий формат, наприклад, документ Word.

Щоб це зробити необхідний сканер і спеціальна програма для розпізнавання тексту. У цій статті піде мова про безкоштовне аналогу FineReader – CuneiForm (про розпізнаванні в FineReader – див. в цій статті).

Почнемо…

Зміст:

  • 1. Особливості програми CuneiForm, можливості
  • 2. Приклад розпізнавання тексту
  • 3. Пакетне розпізнавання тексту
  • 4. Висновки

1. Особливості програми CuneiForm, можливості

Розпізнавання тексту. Безкоштовна програма — аналог FineReaderCuneiForm

Скачати можна з сайту розробника: http://cognitiveforms.com/

Програма для розпізнавання тексту з відкритим вихідним кодом. До того ж, працює у всіх версіях Windows: XP, Vista, 7, 8, що радує. Плюс до цього додайте повний російський переклад програми!

Плюси:

– розпізнавання тексту на 20 найбільш популярних мовах світу (англійська та російська само собою входить в це число);

– величезна підтримка різних друкарських шрифтів;

– перевірка за словником розпізнаного тексту;

– можливість збереження результатів роботи в кількох варіантах;

– збереження структури документа;

– відмінна підтримка і розпізнавання таблиць.

Мінуси:

– не підтримує занадто великі документи і файли (понад 400 dpi);

– не підтримує на пряму деякі типи сканерів (ну це не страшно, в комплект до драйверів сканера йде і спец. програма для сканування);

– дизайн не блищить (але кому він потрібен, якщо програма повною мірою вирішить завдання).

2. Приклад розпізнавання тексту

Будемо вважати, що необхідні картинки для розпізнавання ви вже отримали (відсканували там, або скачали в інтернеті книгу в форматі pdf/djvu і дістали з них потрібні картинки. Як це зробити – див. в цій статті).

1) Відкриваємо потрібну картинку в програмі CuineForm (файл/відкрити або “Cntrl+O”).

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

2) Щоб приступити до розпізнавання – потрібно спочатку виділити різні області: тексту, графіки, таблиць та ін. У програмі Cuneiform це можна зробити не тільки в ручну, але і автоматично! Для цього клацніть по кнопці “розмітка” у верхній панелі вікна.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

3) Через 10-15 сек. програма автоматично підсвітить всі області різними кольорами. Наприклад, область тексту виділяється синім кольором. До речі, подсветила вона все правильно області і досить швидко. Чесно кажучи, не очікував від неї такої швидкої та правильної реакції…

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

4) Для тих, хто не довіряє автоматичної розмітки, можна скористатися і ручний. Для цього є панелька інструментів (див. малюнок нижче), завдяки якій можна виділити: текст, таблиці, зображення. Пересунути, збільшити/зменшити початкове зображення, підрізати краю. Загалом, непоганий набір.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

5) Після того, як всі області були розмічені, можна приступити до розпізнаванню. Для цього просто клацніть по однойменній кнопці, як на картинці нижче.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

6) Буквально через 10-20 сек. перед вами відкриється в Microsoft Word документ з розпізнаним текстом. Що цікаво, в тексті для цього прикладу, помилки, звичайно, були, але їх дуже не багато! Тим більше, враховуючи в якому непоказному як був вихідний матеріал – картинка.

По швидкості і якості цілком порівнянно з FineReader!

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

3. Пакетне розпізнавання тексту

Ця функція програми може стане в нагоді, коли вам потрібно розпізнати не одну картинку, а відразу декілька. Ярлик для запуску пакетного розпізнавання, зазвичай, захований в меню “пуск”.

1) Після відкриття програми, вам потрібно створити новий пакет, або відкрити раніше збережений. У нашому прикладі – створимо новий.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

2) На наступному кроці даємо йому назву, бажано таке, щоб і через півроку згадати що в ньому збережено.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

3) Далі вибираєте мову документа (російсько-англійський), вказуєте, чи є у вашому відсканованому матеріалі картинки і таблиці.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

4) Тепер треба вказати папку, в якій розташовані файли для розпізнавання. До речі, що цікаво, програма сама знайде всі картинки та інші графічні файли, які вона зможе розпізнати і додати їх в проект. Вам же залишиться видалити зайві.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

5) Наступний крок не важливий – вибираєте що робити з вихідними файлами, після розпізнавання. Рекомендую вибрати галочку “нічого не робити”.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

6) Залишилося лише вибрати формат, в якому буде збережено розпізнаний документ. Є кілька варіантів:

– rtf – файл word, відкривається усіма популярними офісами (в тому числі і безкоштовними, посилання на програми);

txt – текстовий формат, в ньому можна зберегти лише текст, малюнки і таблиці не можна;

htm – гіпертекстова сторінка, зручно, якщо ви скануєте і розпізнаєте файли для сайту. Його і виберемо в нашому прикладі.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

7) Після натискання кнопки “готово” запуститься процес обробки вашого проекту.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

8) Програма працює досить таки швидко. Після розпізнання перед вами з’явиться вкладка з файлами htm. Якщо клацнути по такому файлу запуститися браузер, де ви зможете побачити результати. До речі, пакет можна зберегти для подальшої роботи з ним.

Розпізнавання тексту. Безкоштовна програма — аналог FineReader

9) Як видно, результати роботи вельми вражаючі. Картинку програма легко розпізнала, а під нею легко розпізнала текст. При тому що програма безкоштовна – то взагалі супер!

Розпізнавання тексту. Безкоштовна програма — аналог FineReader Розпізнавання тексту. Безкоштовна програма — аналог FineReader

4. Висновки

Якщо ви часто не займаєтеся скануванням і розпізнаванням документів, то купувати програму FineReader, напевно, не має сенсу. З більшістю завдань легко справляється CuneiForm.

З іншого боку, є у неї і мінуси.

По-перше, дуже мало інструментів для редагування і перевірки отриманого результату. По-друге, коли доводиться розпізнавати багато картинок в FineReader зручніше відразу бачити в колонці праворуч все, що було додано у проект: швидко видаляти зайве, вносити правки пр. І третє, на документах зовсім вже поганої якості, CuneiForm програє в якості розпізнавання: доводиться документ доводити до розуму – ред шибки, ставити розділові знаки, лапки і т. д.

На цьому все. А ви знаєте якусь ще гідну безкоштовну програму для розпізнавання тексту?

Схожі:
Соц закладки