Распознавание текста в Linux — очень просто

20 октября 2013

Все же хочу найти время и отсканировать вторую книгу Дмитрия Ратникова — «Броварщина».

Тренируюсь пока…

Вот сравнительные результаты использования двух программ для распознавания: CuneiForm и Tesseract.

Сразу оговорю, что при изменении разрешения сканирования из 300 в 200 dpi разницы в качестве распознаваемого текста нет.

CuneiForm

Три роки тому із задоволенням читав рукопис майбутньої книги «Бровари. Моє місто — мій дім», де молодий краєзнавець Дмитро Ратніков з любов'ю описував історію міста, в якому народився, виріс, став особистістю. Спочатку мене здивував вік автора і чого він взявся за таку тему, бо, як правило, краєвнавці — цЕ ЛЮДИ ПОВажНиХ літ і те, чим вони займаються, більш схоже на хобі, або українською мовою — сильне захоплення чимось. Як на мене, захоплення краєзнавством — вища ступінь духовності, процес самопізнання себе, довколишнього,а, головне, що все це можна передати іншим, а ті ще іншим. і це збагачує. Але однозначно — не матеріально. Значить в людини є потреба ділитися любов'ю, знанням, минулим, майбутнім. Тоді мені стала зрозуміла мотивація Дмитра — він доріс до того, щоб поділитися своїми знаннями про рідний край, який називається Броварщина. Його нова книга так і називається. Н рукопис прочитав ще з більшим задоволенням, адже в ній нові для мене знання, бо йдеться про село. У кожного села Броварського району своя пам' ять, свої дзвони, свої герої, нагороджені і ненагораджені, і особлива, відмінна від інших, як чині кажуть, аура. Відчути її та передати на папері — це майстерність вищого гатунку. Дмитро Ратніков намагався це зробити, сконцентрувавшись на головному — через основних героїв твору передати любов до рідної землі, світлу пам' ять про тих, кого вже немає, але спогади про них збережуться через покоління, як від батька до сина передається і слава, і печаль роду, краю, історії, Батьківщини. Друга книга «подорослішала» в порівнянні з першою, як і сам автор, якому люди довірили бути депутатом Київської обласноі ради і який в своїх творчих і життєвих задумах, сподіваюся, зутинятися не збирається. Тож, успіхів! А книгу, думаю, із задоволенням прочитає та передасть іншому і старше і молодше покоління.

CuneiForm

Три роки тому із задоволенням читав рукопис майбутньої кни- ги «Бровари Моє місто - мій дім», де молодий краєзнавець Дмитро Ратніков з любов'ю описував історію міста, в якому народився, ви- ріс, став особистістю. Спочатку мене здивував вік автора і чого він взявся за таку тему, бо, як правило, краеэнавці - це люди поважних літ і те, чим вони займаються, більш схоже на хобі, або українською мовою - сильне захоплення чимось. Як на мене, захоплення кра- єзнавством - вища ступінь духовності, процес самопізнання себе, довколишнього,а, головне, що все це можна передати іншим, а ті ще іншим. І це збагачує. Але однозначно - не матеріально. Значить в лю- дини є потреба ділитися любов'ю, знанням, минулим, майбутнім. Тоді мені стала зрозуміла мотивація Дмитра - він доріс до того, щоб поділитися своїми знаннями про рідний край, який називаєть- ся Броварщина. Його нова книга такі називається. ЇЇ рукопис прочи- тав ще з більшим задоволенням, адже в ній нові для мене знання, бо йдеться про село. У кожного села Броварського району своя пам'ять, свої дзвони, свої герої, нагороджені і ненагороджені, і особлива, відмінна від ін- ших, як нині кажуть. аура. Відчути її та передати на папері - це май- стерність вищого гатунку. Дмитро Ратніков намагався це зробити, сконцентрувавшись на головному - через основних героїв твору пе- редати любов до рідноі землі, світлу пам'ять про тих, кого вже немає, але спогади про них збережуться через покоління, як від батька до сина передається і слава, і печаль роду, краю, історії, Батьківщини. Друга книга «подорослішала» в порівнянні з першою, як і сам ав- тор, якому люди довірили бути депутатом Київської обласної ради і який в своїх творчих і життєвих задумах, сподіваюся, аутинятися не збирається. Тож, успіхів! А книгу, думаю, із задоволенням прочитає та передасть іншому і старше і молодше покоління.

Tesseract работает чуть медленнее, но распознает, на мой взгляд, лучше. CuneiForm старается слепить слова с учетом переносов, что у него неплохо получается, но он пытается «думать» и в результате править приходится больше.

Обе программы для распознавания CuneiForm и Tesseract — Open Source, в работе удобно пользоваться графической оболочкой YAGF.