Главная · Лайфхаки · Как пользоваться программой cuneiform 12. OCR CuneiForm для полноценного распознавания сфотографированного или сканированного текста. Пример распознавания текста

Как пользоваться программой cuneiform 12. OCR CuneiForm для полноценного распознавания сфотографированного или сканированного текста. Пример распознавания текста

Сегодня я расскажу и научу вас распознавать текст с картинок. Также для тех, кому нужна была программа для распознавания текста , ниже я предлагаю скачать русскую версию программы CuneiForm 12. А сейчас я более подробно расскажу, как с ней работать.

Зачем нужно распознавать тексты?

Например, вам задали написать доклад или реферат, полазив в интернете, вы нечего путного не нашли. Потом сходили в библиотеку и взяли книгу по теме доклада, но нужного текста в книге много и перепечатывания такого объема может занять у вас всё свободное время. Вот в таких случаях приходит на помощь программа CuneiForm 12 , от вас требуется от сканировать нужные страницы книги, а потом с помощью программы извлечь из картинок текст. Хочу заметить, что всё происходит очень быстро.

Программа для распознавания текста

Как я писал выше, мы будем работать с программой CuneiForm 12. Чем же она лучше других?

  • CuneiForm бесплатная , например программа ABBYY FineReader стоит 3990 рублей.
  • Высокая скорость работы и качество распознавания.
  • Распознавание текстов на 20 языках, в том числе смешанном русско-английском.
  • Работа с рисунками и таблицами.
  • Простота использования и интуитивно понятный интерфейс.
  • А также множество технических усовершенствований.

Но недостатки также имеются, так как это программа русских разработчиков, то красивым дизайном она не выделяется, но для меня главное, то что она правильно распознает текст.

Как работать с программой CuneiForm 12

После загрузки и установки программы, запустите CuneiForm 12. Вы должны увидеть вот такое окошко:

  1. Выбор картинки, с которой будет распознаваться текст.
  2. Выбор принтера.
  3. Кнопка «Распознавания».
  4. Кнопка «Сохранить».

Нажимаем на первую кнопку и выбираете нужную картинку или от сканированную страницу. В следующем окне выбираете язык текста, который находиться у вас на картинке. Следующие настройки не так важны, можете их пролистать.

После распознавания у вас должно появиться вот такое окошко:

В верхней части будет распознанный текст с выделенными ошибками, а ниже исходное изображение. Как вы видите, моя картинка была плохого качества, неровная, но программа распознала всё отлично. Кстати как видно на рисунке выше программа предлагает три варианта развития событий.

  • Оставить для редактирования.
  • Сохранить на диск.
  • Экспортировать в Word или в Excel.

Готово, теперь вы знаете, как это делается и у вас появилась программа распознавания текста со сканера.

CuneiForm — это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск. Однако для Linux имеется только консольная версия программы, поэтому гораздо удобнее пользоваться вместе с фронт-эндом YAGF.

Оболочка YAGF — Y et A nother G raphical F ront-end for CuneiForm предоставляет графический интерфейс для консольной программы распознавания текстов CuneiForm на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа сканированных страниц.

Программа CuneiForm имеется в стандартном репозитории Ubuntu, а вот для YAGF необходимо подключить один из дополнительных репозиториев:

Ppa:alex-p/notesalexp deb http://archive.getdeb.net/ubuntu natty-getdeb apps

и установить с помощью Центра приложений Ubuntu.

Для работы YAGF необходим пакет проверки орфографии aspell и словари соответствующих языков (aspell-en, aspell-ru и т.д.). Если вы хотите управлять сканированием изображений напрямую из YAGF, установите программу XSane. Для распознавания текста потребуется, естественно, программа CuneiForm.

Работа в YAGF состоит из нескольких этапов: получение изображения (серии изображений) страниц; подготовка к распознаванию (если необходимо); распознавание; сохранение результатов.

Получение изображений

Вы можете использовать файлы изображений, сохраненные на жестком диске, или отсканировать новое изображение. Для того чтобы загрузить изображение, воспользуйтесь командой Файл/Открыть (вы можете открыть несколько файлов сразу). Вы также можете перетащить графически файлы мышью на темную полосу в левой части главного окна программы, в результате чего они будут загружены в программу. YAGF поддерживает все основные растровые графические форматы (JPEG , PNG , BMP, TIFF , GIF , PNM, PPM, PBM и другие). Если имя открытого файла имеет вид nameXXX.ext, где XXX - последовательность цифр, вы можете переходить к предыдущему/следующему файлам с помощью кнопок перехода, расположенных на панели быстрого доступа. Например, если вы открыли файл MyPage001.jpg, то при щелчке кнопки перехода к следующему изображению программа попытается открыть файл MyPage002.jpg.

Вы можете получать изображения напрямую со сканера с помощью программы XSane. Находясь в YAGF, скомандуйте Файл/Сканировать. Будет запущена программа XSane. Настройте параметры сканирования в XSane и нажмите кнопку «Сканировать». По окончании сканирования в окне просмотра изображений YAGF появится отсканированное изображение. Если вам нужно отсканировать несколько изображений, выполняйте эти операции несколько раз (в окне просмотра изображений всегда будет открыто последнее отсканированное изображение, вы можете перейти к предыдущим изображениям, используя команды перемещения). Вы можете работать в YAGF, не закрывая окно XSane. Если вам нужно отсканировать очередное изображение, просто щелкните кнопку XSane «Сканировать». При выходе из YAGF открытое программой окно XSane будет закрыто автоматически. Для перехода к другим отсканированным изображениям пользуйтесь кнопками с панели быстрого доступа, как было описано выше. Все полученные изображения отображаются в уменьшенном виде на панели изображений в левой части главного окна программы. Вы можете сохранить эти изображения в отдельную директорию с помощью кнопки «Сохранить».

Подготовка изображений

В YAGF вы можете выполнять простые операции подготовки отсканированного изображения: выделение блока текста для распознавания и поворот. Если изображение ориентировано неправильно, его можно повернуть на 90 градусов по и против часовой стрелки или на 180 градусов. Делается это с помощью кнопок панели быстрого доступа в окне просмотра изображений. Если вы хотите передать на распознавание не все отсканированное изображение, а его часть, вы можете выделить мышью один или несколько прямоугольных блоков в окне просмотра изображений. Если щелкнуть левой кнопкой мыши по существующему блоку, его цвет изменится на розовый. Теперь размер выбранного блока можно изменить, «ухватившись» мышью за край блока. Если щелкнуть в окне изображения правой кнопкой мыши, появится контекстное меню, с помощью которого можно удалить все выделенные блоки, удалить выбранный блок, распознать текст выбранного блока. Для удобства выделения блоков вы можете уменьшить или увеличить размеры изображения в окне просмотра (эта операция не влияет на размеры изображения, передаваемого программе CuneiForm). Изменение видимых размеров изображения можно выполнить так же с помощью комбинаций клавиш Ctrl++ и Ctrl+- или вращая колесико мыши, удерживая при этом клавишу Ctrl (точно так же можно изменить размеры шрифта в окне просмотра текста).

Если в программе открыто несколько страниц и для каждой выбраны своя ориентация, свой масштаб и выделены свои блоки, YAGF запомнит эти параметры для каждой страницы.

Если страница отсканирована неровно, с наклоном, вы можете попробовать исправить наклон с помощью новой функции «Исправить наклон страницы». Для этого нажмите соответсвующую кнопку.

Распознавание

Приступая к распознаванию, вы должны выбрать подходящий язык распознавания (или пару языков, если распознаваемый документ написан на нескольких языках). Основная версия CuneiForm позволяет вам распознавать тексты почти на всех европейских языках, а также тексты, содержащие пару языков русский-английский.

Каждый новый распознанный фрагмент текста (выделенный блок или новая страница) добавляется в редактор распознанного текста в виде нового абзаца.

По умолчанию YAGF выполняет проверку орфографии распознанного текста с помощью libaspell. Обычно в вашей системе устанавливаются орфографические словари для «родной» локали система и английского. Если вы хотите проверять орфографию для текстов на других языках, установите соответствующие словари. Если YAGF не находит нужного словаря для проверки орфографии для заданного языка распознавания, программа предупреждает вас об этом. Отключите проверку орфографии, если не хотите получать такие предупреждения.

Если вам нужно распознать текст сразу с нескольких изображений, вы можете воспользоваться пакетным распознаванием. Для этого все изображения, которые требуется распознать, должны быть открыты на панели изображений (в левой части окна программы). Щелкните кнопку «Распознать все страницы». Все открытые изображения будут загружаться и распознаваться автоматически. При этом будет выведено диалоговое окно, отображающее прогресс распознавания. Вы можете остановить процесс пакетного распознавания, щелкнув кнопку «Прервать». Если на распознаваемых страницах выделены блоки, будет распознан только текст внутри блоков.

Сохранение результатов

Распознанный текст может быть сохранен на диске в текстовом формате (кодировка UTF-8), в формате HTML или скопирован в буфер обмена. Кнопка «Копировать текст в буфер обмена» копирует в буфер выделенный фрагмент распознанного текста или весь текст, если в редакторе отсутствует выделение.

- интеллектуальная система распознавания текста. Обеспечивает быстрое и качественное преобразование бумажных документов и электронных графических файлов в редактируемый текст для последующей работы с ним в офисных программах и текстовых редакторах. Результаты можно сохранять в популярных форматах и проводить по ним полнотекстовый поиск.
Возможности CuneiForm :
При распознавании сохраняется структура документа и его форматирование.
Распознает таблицы любой структуры и сложности, в том числе и без отображения линий табличной сетки.
Распознаются любые печатные шрифты: книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.
Алгоритмы оптического распознавания (OCR, Optical Character Recognition), встроенные в программу позволяют распознавать текст с матричного принтера, плохих ксерокопий и факсов.
Распознавание документов более чем на 20 языках: на русском, английском, украинском, немецком, французском, испанском, итальянском, и других.
Для повышения качества распознавания в программе используется словарная проверка. При этом стандартный словарь можно расширить за счет импорта новых слов из текстовых файлов.
Для координации работы над проектом действует сайт OpenOCR.org c русскоязычным форумом .
Статус программы: Бесплатная
Операционка: Windows 7, Vista, XP
Интерфейс: Английский, Русский
Разработчик: Cognitive Technologies
Размер: 33.3 Mb
СКАЧАТЬ OCR CuneiForm V.12
СКАЧАТЬ Cognitive OpenOCR (Russian)
СКАЧАТЬ Cognitive OpenOCR (English)
Небольшой мануал по работе:
После установки у Вас появятся два ярлыка:

Пакетное распознование - обработка целых папок.
CuneiForm - обработка документов со сканера или отдельных файлов.
Запускаем программу. На мой взгляд большинству подойдёт второй вариант запуска программы. В открывшемся окне выбираем значок с волшебной палочкой (стрелка).


Открывается окно "мастера распознования". Выбираем источник исходного файла (винчестер или сканер). Для примера я выбрал файл на жеском диске.


Жмём "Далее". Открывается страница выбора языка, где мы выбираем (естественно) язык (стрелка 1) и символ которым будут заменятся нераспознанные буквы (стрелка 2).


Опять "Далее". Выбираем параметры распозноваемого текста. Так как, у меня был отсканированный рукописный текст, я выбрал "Словарный контроль" и "Факс".


И т.к. исходный текст не содержал таблиц и картинок, убрал соответствующие точки на следующем пункте настройки.


Опять "Далее". И программа начала обработку текста.


Вот итог. Исходный фрагмент и после обработки программой.

Это итоги обработки рукописного фрагмента.
А вот итоги обработки отсканированного машинописного текста (параметры исходника выставлены такими же) :

Как видим результат напрямую зависит от исходника. При обработке рукописного теста, плохого качества целесообразней набирать его сразу вручную, чем обрабатывать программой и после править.
Поэтому не стоит надеяться на чудо. После распознования текста предстоит довольно кропотливая работа по исправлению ошибок .
Подготовлено по материалам computer-vsem.ru, cognitiveforms.com, softportal.com
Компиляция текста и ссылки

Название программы : OCR CuneiForm

Версия : 12

Размер : 33,4 Мб

Язык : несколько языков в т.ч. русский

Тип программы : распознавание текста

Лицензия : свободная с открытым кодом

Описание программы

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

OCR CuneiForm это:

  • высокое качество распознавания;
  • высокая скорость работы;
  • распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
  • работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
  • распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
  • автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
  • полное сохранение топологии страницы;
  • поддержка пакетного режима сканирования и распознавания;
  • простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
  • встроенный текстовый редактор для работы с распознанным текстом;
  • совмещенный показ изображений и результатов распознавания.

В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.

Вопросы и ответы по программе

Что такое CuneiForm? CuneiForm - это система оптического распознавания крупнейшего российского разработчика программного обеспечения Cognitive Technologies, которая обеспечивает быстрое и высококачественное преобразование бумажных документов и электронных графических файлов, получаемых, например, со сканера или факса, в редактируемый текст для последующей работы с ним в текстовых редакторах.

Для кого предназначена OCR CuneiForm? Система распознавания текстов CuneiForm предназначена для всех, кому приходится вводить в компьютер факсы, книги, газеты, машинописные страницы, тексты договоров и т.д. Для работы с системой достаточно положить страницу с текстом в сканер, нажать кнопку, и через несколько секунд Вы получите готовый результат в многофункциональном текстовом редакторе.

Какие шрифты распознает OCR CuneiForm, требуется ли обучение? CuneiForm - шрифтонезависимая (OmniFont) система. Алгоритмы, заложенные в CuneiForm, исходят из правил написания букв, из их топологии, и не требуют задания каких-либо эталонов, или обучения.

В системе используется технология интеллектуального самообучения на базе адаптивного распознавания символов.

Распознаются любые печатные шрифты - книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.

Не распознается рукописный текст и декоративные шрифты (готический, стилизованный под рукописный).

В CuneiForm существуют специальные настройки для распознавания текстов с матричного принтера и факсов 200x100 dpi.

Чем OCR CuneiForm отличается от других подобных программ?

  • качеством распознавания;
  • высокой скоростью работы;
  • использованием уникальных технологий, таких как адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и других;
  • простой использования и интуитивным интерфейсом;
  • функциональным наполнением, наличием многих дополнительных возможностей.

Поддерживает ли OCR CuneiForm работу с таблицами? Да. Программа автоматически находит в тексте таблицы различной структуры, в том числе без линий разграфки. Встроенный редактор поддерживает редактирование таблиц (можно уменьшать/увеличивать, удалять/создавать колонки и т.д.)

Как OCR CuneiForm отнесется к картинкам в тексте? Как пожелаете. Может просто проигнорировать их присутствие, а может сохранить в выходном документе в черно-белом, сером или цветном виде, в зависимости от вашего желания.

Ссылки для загрузки

  • Скачать установочную версию с depositfiles.

Информация взята с официального сайта программы

Модуль поиска не установлен.

Система распознавания текстов CuneiForm 2000

Ольга Крылова, [email protected]

Покупкой сканера, как правило, преследуют одну из целей. Когда требуется перевод печатных изображений и фотографий в электронный вид, либо для переноса текстовой информации с бумажного оригинала в формат компьютерного редактора. Выбор и тестирование всевозможных программ, обеспечивающих интерфейс, обычно занимает уйму времени. Но с облегчением можно вздохнуть, узнав, что "продвинутых" программ, предназначенных для ввода и распознавания текста со сканера, всего две: это CuneiForm и Fine Reader.

Заполучив новый сканер, его обладатель может автоматически стать пользователем одной из этих программ, т. к. фирмы-производители давно внедряют свои продукты "в довесок" к оборудованию. Конечно же, лицензионный пакет ПО с набором последних разработок таким способом не распространяется. Купивший сканер получает бета-версию новой или устаревшую (но работающую без ограничения времени) модификацию программы.

Среди пользователей-профессионалов до сих пор не разрешен спор в пользу CuneiForm и Fine Reader. Каждый из продуктов в той или иной версии всегда опережает своего конкурента в каком-либо функциональном новшестве. Тем не менее, обобщенные оценки обеих программ практически равны. Пользователей системы Fine Reader больше, что отчасти объясняется маркетинговой политикой при ее распространении. Однако и программа распознавания текстов CuneiForm имеет немало своих сторонников, т. к. ее принципиально отличает от конкурента иная платформа, интерфейс и ряд незаменимых функций. Имея в арсенале CuneiForm 2000 и Fine Reader 5.0, пользователи часто проводят сравнение возможностей обеих программ, чтобы выбрать для себя наиболее удобную. Такая политика более оправдана, чем вера в слухи и воспеваемые дифирамбы конкретной распознавалке. Сколько компьютерщиков, столько, как говорится, и мнений!

Основной критерий, вызывающий восхищение пользователей во время сканирования, это соотношение скорость/качество. При масштабной работе с текстом, не обремененным таблицами и рисунками, ставка делается на возможность при помощи программы распознавания сэкономить массу времени. Максимально высокая скорость (а высоких показателей на сегодняшний день добивается любая современная система) достигается, когда рабочий документ идеального качества, с крупным ярким шрифтом. Не секрет, что этот фактор напрямую влияет и на качество распознанного текста. Если бумажная версия рабочего документа пропечатана плохо, то время на распознавание, естественно, увеличивается. Программа CuneiForm 2000, стремясь к идеальной формуле скорость/качество, подключает целую совокупность алгоритмов. Их взаимосвязанная работа позволяет системе после оценки отсканированного объекта подключить именно тот механизм, который быстрее справится с поставленной задачей. Тем самым интеллектуальная программа экономит время пользователя! Затратив несколько секунд на принятие и реализацию решения, система страхует от вторичного сканирования того же документа, изменения настроек и возможного ручного редактирования нераспознанных символов.

Еще один важный момент, который обеспечит максимальную скорость работы программы распознавания. Приобретая сканер и задаваясь целью максимально использовать его, не стоит скупиться на upgrade самого компьютера. Это очевидно: современные разработки программного обеспечения стремятся к максимальной эффективности (в нашем случае скорость/качество), требуя дополнительных аппаратных ресурсов. Переходя от версии к версии любимой программы распознавания текстов, нужно заботиться об увеличении памяти и мощности процессора вашего компьютера. При таких условиях будет легче прочувствовать новшества, введенные разработчиками, и полностью насладиться всеми функциями программы.

Однажды оценив легкость и полезность системы распознавания, уже невозможно от нее отказаться. Упразднив ручной набор, пользователь пытается доверить процессу распознавания со сканера все более и более сложные тексты. Обычное желание - сэкономить усилия при создании и верстке таблиц, а также поставить на поток перевод в цифровой формат многочисленных рисунков и формул. Если "в молодом возрасте" программа распознавания эту проблему решала с трудом, долго "скрипя" над поставленной задачей и иногда совершая ошибки, то сегодня CuneiForm 2000 выручает своих сторонников на все 100%. Иногда при вводе сложных текстов возникают некоторые нюансы, требующие доработки. Но не понравившийся результат всегда можно исправить, изменив методику: например, перейти на ручное выделение блоков, что часто прибавляет удобства при формировании таблиц. Очень быстро разрешит сомнения развернутая справочная система: воспользовавшись ею, можно за 2-3 итерации поставить на поток сканирование и распознавание идентичных по структуре страниц. Последнюю версию программы распознавания текстов CuneiForm 2000 сайт разработчика (http://www.cuneiform.ru) распространяет бесплатно. Программа работоспособна в течение 30 дней или 100 запусков, т.к. для дальнейшего использования требуется оплата программного продукта и регистрация. При обращении же к незарегистрированной копии на экране появляется запрос на ввод пароля и диалог-предупреждение о том, что программа не зарегистрирована. Однако времени, отведенного на эксплуатацию пробной версии системы CuneiForm 2000, вполне достаточно, чтобы оценить ее достоинства и недостатки. При этом функциональные возможности такой копии CuneiForm ничем не отличаются от ее зарегистрированного оригинала. В техническом руководстве к программе обозначено несколько отличий между двумя версиями: CuneiForm 2000 Professional и CuneiForm 2000 Master. Оценив эту разницу, можно уменьшить (увеличить) затраты на приобретение той или иной версии. Стоимость CuneiForm 2000 Professional составляет $129 (upgrade $39), Professional CuneiForm 2000 Master - $249 (upgrade $75). Обе модификации позволяют работать с 15 языками, распознавать таблицы, рисунки и, проверяя орфографию, сохранять обработанный текст в различных форматах, т. е. самые необходимые функции, не говоря уже о стабильном качестве и скорости распознавания. Пакет CuneiForm 2000 Master, в отличие от своего урезанного по возможностям собрата CuneiForm 2000 Professional, предоставляет еще и работу с пакетным распознаванием. Не менее полезная возможность - сканирование с удаленного сканера, что удобно при работе нескольких пользователей в сети.

Впервые приступая к сканированию и распознаванию текстов, полезно отметить для себя следующие моменты. При запущенной программе CuneiForm 2000 и подключенном сканере вся работа делится на 4 этапа. Каждый этап зафиксирован и запускается кнопкой в главной информационной панели системы распознавания (см. рисунок 1).

Кнопка "Получить изображение" отвечает за процесс сканирования, и при ее нажатии система вызывает управляющую сканером программу. Внешний вид программы зависит от модели сканера и входит в комплект поставки аппарата. На всякий случай отмечу, что к этому моменту документ уже должен находиться в сканирующем устройстве. Процесс считывания требует от пользователя ручного управления как минимум двумя функциями: предварительное сканирование и непосредственно сканирование. В промежутке можно настраивать параметры цветности, контрастности, разрешения, если требуется - поворот страницы и т.п. Как правило, этап сканирования самый длительный, его завершение фиксирует возврат в меню системы CuneiForm с появлением на экране отсканированного изображения.

При помощи кнопки "Разметка" главной панели вызывается этап разметки страницы. Целесообразно установить по умолчанию автоматический режим (что отмечается треугольной стрелкой в углу кнопки). Автоматическая разметка изображения выполняется обязательно (в противном случае пользователь переходит к ручной). При ее завершении происходит прямой переход к третьему этапу.

Для распознавания текста нужно нажать на кнопку "Распознавание" в главной панели инструментов (стрелка в углу, как принято в программе, означает автоматический режим и переход после выполнения к следующему этапу). Распознанный текст загружается в окно текстового редактора системы CuneiForm, в котором сомнительные слова и символы выделены цветом.

Дальнейшие действия следующие: редактирование обработанного текста в редакторе системы и вызов этапа сохранения кнопкой "Запись в файл". Упрощенный процесс сканирования и распознавания документа на этом завершен. Для экономии времени можно пренебречь проверкой, скопировав распознанный текст из редактора системы CuneiForm через буфер обмена в блокнот, Word или любой другой.

Итак, упрощенный процесс сканирования освоен и уже произведены некоторые первоначальные оценки. Теперь пользователю предстоит расширить диапазон освоения возможностей программы.

Чтобы получить навыки работы со сложным объектом, стоит взять при изучении системы что-нибудь сложное для распознавания: например, книгу с таблицами и рисунками. При этом текст будет располагаться двумя колонками (вы сканируете разворот двух страниц одновременно). Здесь, а также в других "многоколончатых" случаях не запрещайте системе CuneiForm 2000 "видеть" такое расположение текста. В противном случае можно потерять все форматирование. К примеру, установив флажок при задании опций пакетного распознавания (см. рисунок 2), - в целом пакете.

На этапе сканирования, в первую очередь предлагаю зафиксировать параметры системы, которые будут использоваться по умолчанию. Задать правильно все настройки распознавания поможет справочная система и "Мастер распознавания", в котором настраиваются следующие параметры: цветность, формат границ, разрешение, яркость, контраст и порог, язык распознавания, вид нераспознанного символа, сохранение, параметры разметки, наличие таблиц и картинок, словарный контроль. Режимы: колонка, факс, матричный принтер. Задав эти настройки в меню "Параметры" по умолчанию, в последующем не придется выбирать одни и те же опции при работе с данной книгой.

В окне изображения система позволяет управлять отсканированным объектом: просматривать в различных масштабах, отображать его фрагменты в окне увеличения, поворачивать, инвертировать. Отсканированный объект можно сохранить в файле. (А впоследствии - обработать при помощи пакетного распознавания.) Как и любой графический файл, изображение несложно распечатать.

Следующий этап тестирования возможностей системы - это настройка опций разметки. Часто бывает полезной замена автоматической разметки на ручную. Это пригодится в нашем случае с книгой, т.к. в тексте могут присутствовать объекты, которые не нужно включать в распознанный текст: колонтитулы, номера страниц, пометки на полях. Система CuneiForm 2000 игнорирует все находящееся за пределами размеченной области. Во-вторых, операция ручной разметки спасет наши таблицы: такие манипуляции сэкономят время на последующую верстку! Простой пример: даже такой интеллектуальной системе, как CuneiForm 2000, очень непросто "увидеть" в документе таблицу, которая не ограничена сеткой. Визуально такой объект выглядит как многоколончатый текст, и программа автоматически выделяет его так же.

Область распознавания выделяется курсором мыши, принявшим вид креста. Часть изображения, оставленная за пределами области распознавания, будет затенена, а область распознавания - нет. Средства ручной разметки задают размеры блоков текста и иллюстраций, формируют блоки таблиц. Блоки можно перемещать, изменять размеры, добавлять, удалять, упорядочивать, преобразовывать в блоки другого типа (в т. ч. многоугольные) и пр.

После автоматической разметки сложного текста происходит разбиение на несколько мелких блоков. Меню "Правка" позволяет объединять их и нумеровать, организуя порядок, в котором содержимое блоков переносится в текст. После выбора пункта "Пронумеровать блоки" в углу каждого блока высвечивается его номер. Последовательные щелчки мышью изменят номер блока, начав с первого и далее по порядку.

Все манипуляции в отношении блоков текста, таблиц и иллюстраций совершаются с помощью меню "Правка" и "Изображение". Причем любой блок разметки можно преобразовать в блок иллюстрации, выбрав опцию "Определить блок как рисунок".

После запуска распознавания готовый текст разместится в текстовом редакторе. В нем предусмотрена возможность последовательного просмотра сомнительных слов при помощи меню "Правка" или комбинаций клавиш Ctrl+F8, Ctrl+F7. Редактор системы CuneiForm 2000 позволяет управлять шрифтами, меняя их начертание, размер и пр. Есть также упрощенные возможности работы с абзацами.

Прежде чем запустить функцию распознавания, в меню "Параметры" кнопки "Распознавания" необходимо задать язык распознаваемого текста, допустим, для рассматриваемого примера сканирования страниц книги подойдет выбор "Русско-Английский". Эта операция важна для правильной работы функций словарного контроля, а также для исключения знаков переноса (однако в настройках можно указать и сохранение исходных переносов). Режим "Словарный контроль" включается в том же меню или в опциях "Общие параметры". Система CuneiForm 2000 имеет богатый словарь, но при отсутствии в нем какого-то слова знак переноса может оказаться в распознанном тексте. Эти слова будут отмечены цветом как сомнительные. Нераспознанные символы по умолчанию в программе заменяются знаком тильды - "~".

Чтобы облегчить работу программе, лучше заранее установить режим распознавания для документов, напечатанных на матричных принтерах или пришедших по факсу - они существенно отличаются от обычных текстов.

Распознанный текст можно записать в файл, а можно экспортировать в текстовый процессор Microsoft Word, электронные таблицы Microsoft Excel или в электронный архив "Евфрат". Для упрощения работы полезно включить автоматический вызов экспорта в нужную программу. Эти настройки задаются в диалоговом окне кнопки "Сохранение".

Запись распознанного текста в файл производится по обычной для текстового редактора схеме: выбор каталога, формата создаваемого файла, кодировки символов кириллицы. Чтобы в файле каждый абзац был разбит на отдельные строки, следует установить флажок "Сохранять концы строк внутри параграфа". Имя файла указывается без расширения. Сохраняя сложно отформатированный документ в текстовом формате, нужно при разметке правильно упорядочить блоки текста. В противном случае фрагменты текста из разных блоков могут быть записаны в файл с нарушением порядка.

Отсканировав несколько страниц книги с использованием вышеперечисленных советов, пользователь заметит, что процесс работы с системой CuneiForm 2000 принял поточный характер. В случае, когда те же самые итерации с одинаковыми настройками программы повторяются от страницы к странице, удобно затрачиваемые усилия переложить на плечи пакетного распознавания. Эта подпрограмма отлично экономит время при условии, что объединенные в пакет страницы не требуют ручного вмешательства. Суть метода заключается в том, что прошедшие 1 этап ("Сканирование") страницы (одна или несколько десятков) объединяются в каталог и откладываются на время. Пользователь сам выбирает момент для запуска следующих этапов для данного пакета (каталога). Объединенные в пакет файлы все, как один, получают единовременные настройки разметки, распознавания и сохранения. Эти настройки и есть последний шаг, предпринимаемый человеком в пакетном распознавании. Следующее его вмешательство - просмотр результатов.

Высвободившееся время лучше всего направить на работу с "непослушными страницами". Рациональнее не включать их в пакет и обработать "старым", уже изученным способом, выделяя вручную блоки, редактируя таблицы, рисунки и проблемные участки.

Пакетное распознавание в системе CuneiForm функционирует как самостоятельный модуль программы и запускается в отдельном окне. Чтобы стало понятнее, какими возможностями наделена эта подпрограмма, приведу формулировку из справочной системы. "Пакетом будем называть совокупность графических файлов, параметров их обработки программой пакетного распознавания, файлов с распознанным текстом и сообщений об ошибках, которые возникли при распознавании текста. Пакет может существовать только в оперативной памяти компьютера во время сеанса работы с программой пакетного распознавания, а может быть записан на диск в виде файла с расширением.CBF. В пакете хранятся только ссылки на файлы, сами же файлы хранятся на диске независимо от пакета. В пакете записаны полные пути к файлам, поэтому, скажем, перемещение пакета на другой диск или в другой каталог приведет к тому, что программа пакетного распознавания не найдет включенные в пакет файлы. В пакет можно добавить не только отдельные файлы, но и каталог, что бывает полезно, когда планируется обработка пакета в режиме ожидания. Жизненный цикл пакета начинается созданием последнего, в частности добавлением в него графических файлов. Для того чтобы распознать текст, находящийся в графических файлах, пакет следует обработать, при этом для каждого успешно обработанного графического файла создаются и включаются в пакет файлы с распознанным текстом. Поскольку эти файлы записываются непосредственно на диск и имеют стандартный формат, RTF или текстовый, необходимости сохранять или экспортировать распознанный текст нет: достаточно просто скопировать файлы с распознанным текстом в нужный каталог."

Как и при любом сотрудничестве с программой CuneiForm, управлять пакетным распознаванием очень просто. "Мастер пакетного распознавания" начинает работать после нажатия кнопки "Создание пакета" в подпрограмме. Вкратце опишу те действия, которые нужно предпринимать при работе с Мастером. Первое действие - задать имя пакету. Далее - настройки опций "Распознавание". Они идентичны уже знакомым нам со времен сканирования страниц книги параметрам. Здесь порядок таков: "Язык распознавания", "Словарный контроль", "Матричный принтер", "Факс", "Колонки", "Нераспознанный символ", "Таблицы", "Картинки", "Автоповорот" (см. рисунок 2), "Список файлов, составляющих пакет", "Параметры шрифтов" и "Тип распознанных файлов". Допустим, можно выбрать несколько "отложенных" после сканирования страниц, сохраненных в файлах формата.TIF. Мастер поинтересуется, что делать с обработанными графическими файлами (удалять, перемещать или ничего) и в каком формате сохранять распознанные тексты. После запуска распознавания окно программы будет содержать дерево пакетных файлов и индикатор процесса обработки (см. рисунок 3). При желании результаты можно записать в файл-протокол (LOG). Программа пакетного распознавания может обрабатывать несколько пакетов одновременно, а также в режиме ожидания, обработка в котором заканчивается только после вмешательства пользователя.

Резюме (краткое руководство)

1. Начинать работу с системой CuneiForm 2000 нужно с оценки качества текста и параметров сканирования, при которых достигается максимум качества/скорости. Для этого: отсканировать 1-2 страницы текста, задав параметры вручную. На основании проделанной работы задать "по умолчанию" опции сканирования (в частности, "цветность", "разрешение", "яркость"), все форматы распознавания и сохранения.

2. Позволить системе автоматическую разметку с последующим распознаванием отсканированного объекта. В случае удовлетворяющего вас результата выполнять эти этапы для идентичных страниц в режиме "Автомат". В случае возникших неточностей распознавания - перейти к ручной разметке и редактированию блоков, особое внимание уделяя таблицам и рисункам.

3. Отсортировать страницы, требующие "ручного управления". Для оставшихся выполнить этап "Сканирование", сохранить результат в графическом формате.

4. Выполнить весь объем работ порциями, используя возможности системы CuneiForm 2000. Сначала обработать страницы, требующие "ручного управления". Вторую порцию - средствами пакетного распознавания идентичные по оформлению графические файлы (см. п. 3), отсортированные в каталоги-пакеты.