Представьте себе, что вам надо написать реферат, для чего надо как-то перенести большой текст из книги в ваш компьютер. Как это сделать? Можно перепечатывать вручную, на эту муторную работу может уйти несколько дней. А можно пойти другим путем и сфотографировать страницы с текстом с помощью фотоаппарата, сотового телефона или отсканировать их (у кого есть сканер).
Теперь у вас есть фотографии с изображением текста и возникает вопрос — как перевести эту картинку в тестовый файл? Для этого существуют программы-распознаватели текста (OCR), называть их названия не будем — все они платные. Так как процесс распознавания трудоемок, то бесплатных аналогов не существовало аж до начала нашего века, но случилось чудо, и миру была явлена совершенно бесплатная программа OCR, которая называется Cuneiform. Признаться честно, я не поверил, что это реально работает, однако оказалось, что это работает и не хуже платных аналогов!
Итак, вы указываете программе путь к файлу с изображением страницы книги, программа обрабатывает его и вы получаете готовый тестовый файл! Фантастика! Теперь нет проблем с рефератами, докладами и прочей никому не нужной суетой!
Www.Cuneiform.ru 

http://clubs.ya.ru/legal-soft/replies.xml?item_no=3610


Интеллектуальная система распознавания текста

CuneiForm — это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск.

Интеллектуальные технологии, разработанные и реализованные нами в CuneiForm, встроены практически во все продукты Cognitive Technologies:

Cognitive Forms — проектное решение для автоматизации ввода данных и документов.

Cognitive Forms Bank — автоматизированная система ввода платежных и финансовых документов.

Cognitive Passport — программа для сканирования, распознавания и ввода данных из удостоверяющих документов.

Cognitive Passport API — реализация Cognitive Passport для встраивания в сторонние приложения.

Cognitive ScanPack — технология сканирования, оцифровки и сжатия документов.

Cognitive PDF/A — встраиваемая технология сжатия документов.

Скачайте CuneiForm

CuneiForm является бесплатной программой и доступна для скачивания и использования всем желающим.

Скачать OCR CuneiForm V.12 (ZIP, 33,3 МБ)

Скачать Cognitive OpenOCR (CuneiForm), русская версия (EXE, 32,1 МБ)

Скачать Cognitive OpenOCR (CuneiForm), english version (EXE, 31,9 МБ)

OCR для встраивания в приложения

На сегодняшний день системы OCR востребованы не только как отдельный продукт, но и как части других систем. Открытый исходный код CuneiForm предоставляет сторонним разработчикам уникальную возможность встроить одну из лучших OCR систем в свои приложения.

Услуги по интеграции CuneiForm

Мы готовы выполнить проекты по доработке функционала CuneiForm под нужны заказчика и проекты по встраиванию CuneiForm в сторонние приложения: информационные системы, СЭД, ERP, электронные архивы и т.п.

По вопросам интеграции CuneiForm свяжитесь с нами по почте: product@cognitive.ru,

По телефонам:

+7 (495) 956-90-06 (доб. 7042),

+7 (499) 135-30-00 (доб. 7042),

+7 (499) 135-55-10 (доб. 7042),

или оставьте заявку.

Возможности

При распознавании с помощью CuneiForm сохраняется структура документа и его форматирование.

Программа распознает таблицы любой структуры и сложности, в том числе и без отображения линий табличной сетки.

Распознаются любые печатные шрифты: книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.

Алгоритмы оптического распознавания (OCR, Optical Character Recognition), встроенные в программу позволяют распознавать текст с матричного принтера, плохих ксерокопий и факсов.

Распознавание документов более чем на 20 языках: на русском, английском, немецком, французском, испанском, итальянском, шведском, украинском и других.

Для повышения качества распознавания в программе используется словарная проверка. При этом стандартный словарь расширить за счет импорта новых слов из текстовых файлов.

OpenSource

Cognitive Technologies открыла исходный код системы распознавания текстов Cuneiform и предлагает всем желающим участвовать в проекте OpenOCR — разработке Open Source OCR системы.

Для координации работы над проектом открыт русскоязычный форум.

Скачать исходный код программы OCR Cuneiform (ZIP, 34,4 МБ)

Скачать исходный код интерфейса OCR Cuneiform (ZIP, 7,33 МБ)

Скачать документацию на библиотеки ядра распознавания (ZIP, 228 КБ)