vdemin |
|
Темы:
54
Сообщения:
1615
Участник с: 24 января 2009
|
Передо мной стоит задача. Либо найти качественный открытый инструмент для распознавания русскоязычного текста с сохранением форматирования, который можно прикрутить к нашей софтине. Либо убедиться в том, что такого инструмента нет, и тогда мы просто не будем вписывать эту возможность в ТЗ. Вариантов немного. Cuneiform Единственный отечественный открытый инструмент. Выходные форматы - html и rtf. Очень напрягает, что с момента открытия программа фактически не развивается. Багтрекер не работает, форум забит спамом и там можно встретить такие каменты без ответа. Хотя на cuneiform-linux идет шевеление, но ведь ребята, я так понимаю, портируют виндовую версию, которая не развивается. Получается, для линукса продукт еще хуже, чем для винды? Tesseract Движок от Google и HP. Развивается (!), от гугла (!), но на выходе чистый текст, без форматирования. И лицензия вроде не позволяет включать в коммерческие продукты. Качество распознавания обоих движков оставляет желать лучшего. Мне кажется, FineReader должен справляться достойней. Хотя последним я пользовался давно и немного. Сейчас больше склоняюсь к тому, чтобы отказаться от затеи с распознаванием, но, может быть, сообщество меня переубедит. Интересно послушать ваше мнение на этот счет, поскольку у меня вообще нет опыта использования подобных программ (то, что я потыкался сегодня, не в счет). |