Передо мной стоит задача.
Либо найти качественный открытый инструмент для распознавания русскоязычного текста с сохранением форматирования, который можно прикрутить к нашей софтине.
Либо убедиться в том, что такого инструмента нет, и тогда мы просто не будем вписывать эту возможность в ТЗ.

Вариантов немного.

Cuneiform
Единственный отечественный открытый инструмент. Выходные форматы - html и rtf.
Очень напрягает, что с момента открытия программа фактически не развивается.
Багтрекер не работает, форум забит спамом и там можно встретить такие каменты без ответа.
Хотя на cuneiform-linux идет шевеление, но ведь ребята, я так понимаю, портируют виндовую версию, которая не развивается. Получается, для линукса продукт еще хуже, чем для винды?

Tesseract
Движок от Google и HP. Развивается (!), от гугла (!), но на выходе чистый текст, без форматирования. И лицензия вроде не позволяет включать в коммерческие продукты.

Качество распознавания обоих движков оставляет желать лучшего. Мне кажется, FineReader должен справляться достойней. Хотя последним я пользовался давно и немного.

Сейчас больше склоняюсь к тому, чтобы отказаться от затеи с распознаванием, но, может быть, сообщество меня переубедит. Интересно послушать ваше мнение на этот счет, поскольку у меня вообще нет опыта использования подобных программ (то, что я потыкался сегодня, не в счет).