Требования к изображениям/файлам

Сервис позволяет извлекать информацию из файлов следующих форматов: JPG, PNG, PDF, TIFF, XLS, XLSX, RTF, DOC, DOCX;
Документ должен быть полностью отсканирован. Не допускается частичное сканирование документа (например, если в документе табличная часть находится на 1-й странице, а на 2-й странице находятся печати, подписи либо другие незначительные атрибуты – необходимо отсканировать обе страницы документа);
Страницы документа должны располагаться последовательно, начиная с первой;
Поверх распознаваемых реквизитов и основных заголовков документа должны отсутствовать помехи, затрудняющие процесс распознавания (загрязнения, печати, подписи, скрепки, пометки от руки и пр.), затрудняющие процесс распознавания;
Рекомендуемое разрешение сканирования документов 300dpi;
Для сжатия отсканированного изображения без потери качества выберите в разделе Параметры оптимизации диалогового окна Оптимизация отсканированного PDF один из следующих параметров: CCITT Group 4 для монохромных изображений или Без потери качества для цветных изображений и изображений в градациях серого. Для большинства страниц сканирование в черно-белом режиме при 300 dpi дает лучшие результаты для преобразования. При разрешении 150 dpi точность оптического распознавания символов несколько снижается и количество ошибок распознавания шрифта возрастает; при разрешении 400 dpi и выше обработка замедляется, а размер файлов со сжатыми страницами увеличивается. Если на странице содержится много нераспознанных слов или текст с малым размером (9 пунктов и меньше), попытайтесь выполнить сканирование при более высоком разрешении. Когда это возможно, сканируйте в черно-белом режиме;
Если функция Оптическое распознавание символов выключена, можно использовать разрешением в диапазоне 10–3000 dpi, рекомендованное разрешение — 72 dpi и выше. Для параметра адаптивного сжатия рекомендуемые разрешения при сканировании: 300 dpi для изображений в градациях серого и RGB и 600 dpi для черно-белых изображений;
Страницы, отсканированные в режиме 24-разрядных цветов, 300 dpi, размером 8,5 х 11 дюймов (21,59 х 27,94 см) до сжатия представляют собой изображения большого размера (25 МБ). Системе может потребоваться 50 МБ виртуальной памяти и более для сканирования изображения. При разрешении 600 dpi процесс сканирования и обработки обычно происходит в четыре раза медленнее, чем при 300 dpi;
Избегайте настройки параметров полутонов и диффузионного смешения сканера. Это может улучшить внешний вид, но станет сложно распознавать текст;
Для текстов, распечатанных на цветной бумаге, рекомендуется увеличить яркость и контрастность примерно на 10%. Если сканер обеспечивает световую фильтрацию, следует при помощи специального фильтра или лампы попробовать подавить цвет фона. Или, если текст не подавляется, попробуйте настроить контрастность и яркость сканера, чтобы очистить отсканированный документ;
Сканы документов должны быть достаточно контрастными: скан не считается контрастным, если в половине символов на скане появляются разрывы в линиях, где их не было на документе;
На сканированном образе страницы документа должны отсутствовать нелинейные искажения/помехи вследствие некачественного сканирования или некачественного оригинала документа на бумажном носителе;
Текст, подлежащий распознаванию, визуально должен быть расположен отдельно от других элементов документа;
Возле изображения документа не должно быть посторонних предметов (пальцы, стол, клавиатура, мышь и т.д.).
Скан документа не должен содержать затемнённые части изображения и части изображения не в фокусе. Это может быть вызвано тем, что сканируемый документ имел «волнистые» изгибы;
Документ на скане не должен быть наклонён более, чем на 18 градусов относительно горизонтали/вертикали (повороты на 90, 180 и 270 градусов допустимы);
Если 1 документ расположен на нескольких файлах, имена файлов должны иметь последовательную нумерацию (например, контрагент прислал 3-страничный УПД на трех файлах. Проследите (при необходимости перенумеруйте), чтобы 1-я страница документа имела имя – «1.pdf»; 2-я стр. – «2.pdf»; 3-я стр. – «3.pdf» и т.д.). При загрузке файлов через API страницы должны загружаться в соответствии с положением в документе;
Допускается потоковое сканирование документов: можно положить в потоковый сканер стопку документов, отсканировать в один PDF файл. Далее запустить файл на распознавание. Сервис сам разделит PDF файл на отдельные документы.