Оптическое распознавание текста в PDF документах
Оптическое распознавание текста позволяет преобразовывать изображения текста PDF документа в редактируемый текстовый формат, который поддерживает возможность поиска текста в документе, его копирование и редактирование. Распознавание текста будет осуществляться только в том случае, если в PDF документе не установлен запрет на редактирование.
Для включения оптического распознавания текста выберите в главном меню Документ → Распознавание текста. В диалоговом окне укажите следующие параметры:
- Диапазон страниц — укажите диапазон страниц, на которых необходимо произвести распознавание текста.
- Языки — укажите язык/языки распознаваемого текста. Желательно выбирать минимальное количество вариантов. Это ускорит распознавание текста.
Если распознавание текста используется первый раз, данный список будет пустым. Для добавления языков нажмите кнопку Установить языки.
- Установить языки — установите маркеры, чтобы выбрать необходимые варианты. В диалоговом окне перечислены языки, для которых поддерживается распознавание текста в Master PDF Editor.
Вы также можете установить дополнительные языки, которые не указаны в списке. Для этого необходимо поместить .traineddata файл в каталог, указанный в параметрах Распознавание текста в пункте Путь по умолчанию к файлам данных tesseract ocr. Путь к каталогу по умолчанию может быть изменён на другой. Если у пользователя нет права на запись для каталога, указанного в данном пути, но в нём содержатся языковые файлы, их можно использовать для распознавания текста, но установить в окне Распознавание текста не получится.
- Шрифт — выберите вариант шрифта, который будет использоваться при форматировании уже распознанного текста. Данный параметр позволяет обеспечивать соответствие шрифтов в исходном и распознанном документах. По умолчанию выбран шрифт Helvetica.
- Текст с возможностью поиска — при выборе данной опции после завершения процедуры распознавания текст будет доступен для поиска и копирования. Распознанный текст будет вставлен в документ как невидимый под своим изображением.
- Редактируемый текст — при выборе данной опции после завершения процедуры распознавания текст будет доступен для редактирования. Распознанный текст вставится поверх изображения с данным текстом. Само изображение при этом затирается фоном.
В нижней части окна Распознавание текста находятся дополнительные настройки:
- Исправить перекос — при выборе данной опции автоматически выпрямляется и выравнивается всё содержимое документа. Кроме того, содержимое отсканированного документа также можно исправить перекос.
- Минимальный уровень уверенности — числовое значение, указывающее степень уверенности механизма в том, что он правильно распознал компонент.
- Принудительное редактирование текста вручную, если уровень уверенности не достигнут — при выборе данной опции во время процедуры распознавания текста открывается диалоговое окно, в котором будет отображаться:
- Оригинал — фрагмент изображения с текстом
- Текст — соответствующий изображению автоматически распознанный текст.
В диалоговом окне поочередно будет отображаться каждый фрагмент изображения PDF документа с соответствующим ему распознанным текстом. Здесь можно редактировать распознанный текст перед вставкой в документ.
- Да — автоматически распознанный/редактированный текст запишется в документ. В диалоговом окне отобразится следующее изображение и текст к нему.
- Да для всех — все изображения будут распознаны автоматически и записаны в документ. Данное диалоговое окно больше не появится
- Не текст — текущий распознанный текст не является текстовым фрагментом. Отменяет вставку текста в текущем фрагменте.
- Отмена — отменить распознавание текста.