Средства распознавания текста

vdemin	# 11 лет, 6 месяцев назад
Темы: 54 Сообщения: 1615 Участник с: 24 января 2009	Передо мной стоит задача. Либо найти качественный открытый инструмент для распознавания русскоязычного текста с сохранением форматирования, который можно прикрутить к нашей софтине. Либо убедиться в том, что такого инструмента нет, и тогда мы просто не будем вписывать эту возможность в ТЗ. Вариантов немного. Cuneiform Единственный отечественный открытый инструмент. Выходные форматы - html и rtf. Очень напрягает, что с момента открытия программа фактически не развивается. Багтрекер не работает, форум забит спамом и там можно встретить такие каменты без ответа. Хотя на cuneiform-linux идет шевеление, но ведь ребята, я так понимаю, портируют виндовую версию, которая не развивается. Получается, для линукса продукт еще хуже, чем для винды? Tesseract Движок от Google и HP. Развивается (!), от гугла (!), но на выходе чистый текст, без форматирования. И лицензия вроде не позволяет включать в коммерческие продукты. Качество распознавания обоих движков оставляет желать лучшего. Мне кажется, FineReader должен справляться достойней. Хотя последним я пользовался давно и немного. Сейчас больше склоняюсь к тому, чтобы отказаться от затеи с распознаванием, но, может быть, сообщество меня переубедит. Интересно послушать ваше мнение на этот счет, поскольку у меня вообще нет опыта использования подобных программ (то, что я потыкался сегодня, не в счет).

# 11 лет, 6 месяцев назад

Сообщения: 1615

Участник с: 24 января 2009

Передо мной стоит задача.
Либо найти качественный открытый инструмент для распознавания русскоязычного текста с сохранением форматирования, который можно прикрутить к нашей софтине.
Либо убедиться в том, что такого инструмента нет, и тогда мы просто не будем вписывать эту возможность в ТЗ.

Вариантов немного.

Cuneiform
Единственный отечественный открытый инструмент. Выходные форматы - html и rtf.
Очень напрягает, что с момента открытия программа фактически не развивается.
Багтрекер не работает, форум забит спамом и там можно встретить такие каменты без ответа.
Хотя на cuneiform-linux идет шевеление, но ведь ребята, я так понимаю, портируют виндовую версию, которая не развивается. Получается, для линукса продукт еще хуже, чем для винды?

Tesseract
Движок от Google и HP. Развивается (!), от гугла (!), но на выходе чистый текст, без форматирования. И лицензия вроде не позволяет включать в коммерческие продукты.

Качество распознавания обоих движков оставляет желать лучшего. Мне кажется, FineReader должен справляться достойней. Хотя последним я пользовался давно и немного.

Сейчас больше склоняюсь к тому, чтобы отказаться от затеи с распознаванием, но, может быть, сообщество меня переубедит. Интересно послушать ваше мнение на этот счет, поскольку у меня вообще нет опыта использования подобных программ (то, что я потыкался сегодня, не в счет).