Распознаем текст или о системе OCR

aspiring	# 9 лет, 9 месяцев назад (отредактировано 9 лет, 9 месяцев назад)
Темы: 32 Сообщения: 152 Участник с: 12 октября 2011	Собственно решил написать эту статью из собственного ночного опыта, так как в первый раз у самого “из коробки” ничего не вышло. Итак, речь пойдет о пакете ocrfeeder, он представляет собой GUI для GTK+ системы OCR или системы распознавания текстов с растровых источников. sudo pacman -S ocrfeeder в качестве движка OCR используем пакет tesseract. Почему именно его, а не какой-нибудь распиаренный cuneiform, да потому что он просто лучше и качественней распознает текст. sudo pacman -S tesseract ну и конечно же языковые пакеты, для меня необходимы английский и русский: sudo pacman -S tesseract-data-eng tesseract-data-rus запускаем ocrfeeder идем в инструменты/движки OCR если движек установлен, а ничего нет, то жмакаем - Обнаружить выбираем tesseract и жмем Изменить а теперь важный момент, из-за которого многие забивают на данную систему, в строке Аргументы движка в самое начало добавляем: -l rus также доступно eng в зависимости от необходимого языка распознавания. Добавляем картинку с текстом. Выделяем обрабатываемую область, лучше - вручную и определяем для нее тип, сверху в появившемся справа окне (текст или картинка). Выбираем движек, жмакаем - Распознать, ждем… радуемся результату. Надо отметить, что tesseract вежливо проигнорирует картинку, если она попадет в область выделения вместе с текстом. Документ можно экспортировать в ODT, расположение сохраняется, а вот с форматированием текста надо сказать - трабла. Но в принципе легко правиться Writerом. Отступая от основной темы, хотелось бы уделить внимание программам для сканирования. Для меня дэ-факто стала - simple-scan sudo pacman -S simple-scan можно конечно sane, но как-то она не прижилась у меня, и в дополнение функционала к первой, нашел программу пост-обработки сканированного изображения - scantailor sudo pacman -S scantailor Умеет она многое: выравнивать текст, определять актуальные размеры, очищать картинку от шумов, и т.д. Программа изначально предназначена для групповой обработки, но я до конца не разобрался и поэтому обрабатывал картинки по отдельности. Ну вот вроде и все, так сказать не FineReader но все же что-то. В принципе - результатом я доволен.

# 9 лет, 9 месяцев назад (отредактировано 9 лет, 9 месяцев назад)

Сообщения: 152

Участник с: 12 октября 2011

Собственно решил написать эту статью из собственного ночного опыта, так как в первый раз у самого “из коробки” ничего не вышло.
Итак, речь пойдет о пакете ocrfeeder, он представляет собой GUI для GTK+ системы OCR или системы распознавания текстов с растровых источников.
sudo pacman -S ocrfeeder
в качестве движка OCR используем пакет tesseract. Почему именно его, а не какой-нибудь распиаренный cuneiform, да потому что он просто лучше и качественней распознает текст.
sudo pacman -S tesseract
ну и конечно же языковые пакеты, для меня необходимы английский и русский:
sudo pacman -S tesseract-data-eng tesseract-data-rus
запускаем ocrfeeder
идем в инструменты/движки OCR
если движек установлен, а ничего нет, то жмакаем - Обнаружить
выбираем tesseract и жмем Изменить
а теперь важный момент, из-за которого многие забивают на данную систему,
в строке Аргументы движка в самое начало добавляем:

-l rus

также доступно

eng

в зависимости от необходимого языка распознавания.
Добавляем картинку с текстом.
Выделяем обрабатываемую область, лучше - вручную и определяем для нее тип, сверху в появившемся справа окне (текст или картинка).
Выбираем движек, жмакаем - Распознать, ждем… радуемся результату.
Надо отметить, что tesseract вежливо проигнорирует картинку, если она попадет в область выделения вместе с текстом.
Документ можно экспортировать в ODT, расположение сохраняется, а вот с форматированием текста надо сказать - трабла. Но в принципе легко правиться Writerом.

Отступая от основной темы, хотелось бы уделить внимание программам для сканирования. Для меня дэ-факто стала - simple-scan
sudo pacman -S simple-scan
можно конечно sane, но как-то она не прижилась у меня, и в дополнение функционала к первой, нашел программу пост-обработки сканированного изображения - scantailor
sudo pacman -S scantailor
Умеет она многое: выравнивать текст, определять актуальные размеры, очищать картинку от шумов, и т.д.
Программа изначально предназначена для групповой обработки, но я до конца не разобрался и поэтому обрабатывал картинки по отдельности.

Ну вот вроде и все, так сказать не FineReader но все же что-то. В принципе - результатом я доволен.

sirocco	# 9 лет, 9 месяцев назад
Темы: 29 Сообщения: 2501 Участник с: 25 июля 2007	А не не была сделана попытка обучить tesseract, например как здесь http://zenway.ru/page/owlboxer ?

aspiring	# 9 лет, 9 месяцев назад
Темы: 32 Сообщения: 152 Участник с: 12 октября 2011	А как бы нужды не было, попробуйте сами, распознавание на уровне и все есть в репах арча. За инфу спасибо!

nobus	# 9 лет, 9 месяцев назад
Темы: 67 Сообщения: 1067 Участник с: 01 января 2010	Как-нибудь попробую и сравню с yagf. UPD: понравилась возможность импорта PDF, как в FineReader. Спасибо еще раз за наводку на юзабельную оболочку для OCR. Говорила мама: "RTFM, сынок!"

mecenus	# 9 лет, 9 месяцев назад
Темы: 1 Сообщения: 6 Участник с: 21 ноября 2012	Не получилось заставить распознавать текст, выдает cat: /tmp/ocrfeeder_RUa4PV/tmp6waUjX.txt Нет такого файла или каталога

alexdsp	# 9 лет, 7 месяцев назад
Темы: 22 Сообщения: 307 Участник с: 07 февраля 2008	Спасибо огромное за "simple-scan" :) Не знал об этой чудо программе!

elsonador	# 9 лет, 7 месяцев назад
Темы: 63 Сообщения: 996 Участник с: 09 апреля 2010	Делаем скриншот. Распознаём: в зависимости от необходимого языиа раслознавания добавляем иартиниу с теистом выделяем обрабатываему›о областы лучше - вручную и олределяем для нее тил„ сверху в лоявившемся слрава оине (теист или иартиниа) выбираем движеи‚ жмаиаем - Раслознаты ждем радуемся результату надо отметиты что (еззегац вежливо лроитнорирует картинку если она лоладет в область выделения вместе с теистом доиумент можно зислортироватв в от‘ раслоложение сохраняется а вот с форматированием теиста надо сиазать - трабла но в принципе летио лравиться Штатам Непригодно к эксплуатации. По-моему, проверять на реальных сканах смысла нет ни малейшего.

elsonador

# 9 лет, 7 месяцев назад

Темы: 63

Сообщения: 996

Участник с: 09 апреля 2010

Делаем скриншот. Распознаём:

в зависимости от необходимого языиа раслознавания добавляем иартиниу с теистом
выделяем обрабатываему›о областы лучше - вручную и олределяем для нее тил„ сверху в лоявившемся слрава оине (теист или иартиниа) выбираем движеи‚ жмаиаем - Раслознаты ждем радуемся результату
надо отметиты что (еззегац вежливо лроитнорирует картинку если она лоладет в область выделения вместе с теистом
доиумент можно зислортироватв в от‘ раслоложение сохраняется а вот с форматированием теиста надо сиазать - трабла но в принципе летио
лравиться Штатам

Непригодно к эксплуатации. По-моему, проверять на реальных сканах смысла нет ни малейшего.

gluk	# 9 лет, 7 месяцев назад
Темы: 13 Сообщения: 110 Участник с: 27 февраля 2012	Я давно (года 2-3 назад) ради интереса подсунул скриншот FineReader-у - он тоже плохо справился (по сравнению со сканами).

firefoxic	# 9 лет, 6 месяцев назад
Темы: 7 Сообщения: 112 Участник с: 12 января 2013	Что ж вы хотите от скриншотов с dpi=96 (или сколько у вас там)? Нужно, если уж сканнера нет, хотя бы фотки документов совать с dpi=300 (хотя с фотками эти цифры спорны). Давно валялись фотки некоторых документов, а в онлайн-ocr лениво было лазить. Спасибо вам! Всё быстро оттекстил. Я не красноглазик, я фаерфоксик ^_^

firefoxic

# 9 лет, 6 месяцев назад

Темы: 7

Сообщения: 112

Участник с: 12 января 2013

Что ж вы хотите от скриншотов с dpi=96 (или сколько у вас там)?
Нужно, если уж сканнера нет, хотя бы фотки документов совать с dpi=300 (хотя с фотками эти цифры спорны).

Давно валялись фотки некоторых документов, а в онлайн-ocr лениво было лазить.
Спасибо вам! Всё быстро оттекстил.

Я не красноглазик, я фаерфоксик ^_^

mihalych	# 9 лет, 4 месяца назад
Темы: 2 Сообщения: 22 Участник с: 25 марта 2013	Мегаспасибо, уважаемый. Я бы среди сотни прог заблудился бы и забросил всё. Червоноокий