Интеллектуальная обработка документов. Сферы применения, импортозамещающие решения, комментарии экспертов российского ИТ-рынка

В каких ситуациях интеллектуальная обработка документов необходима или значительно облегчает работу, а когда не приносит существенной пользы? Какие перспективы у ИИ-технологий в части работы с документами и как их развитие отразится на процессах работы с данными? Достаточно ли импортозамещающих ИИ-продуктов присутствует на отечественном рынке? Об этом за круглым столом ICT-Online.ru беседуют эксперты ИТ-компаний.
В беседе приняла участие эксперт по OCR-решениям RAMAX Group Ольга Гриценко.

ICT-Online.ru: По вашим наблюдениям, в каких случаях и на каких участках работы с документами наиболее часто применяется интеллектуальная обработка? А когда она является излишней?

Ольга Гриценко: В настоящее время развитие технологий и появление новых продуктов для интеллектуальной обработки документов (англ. IDP, Intelligent Document Processing) позволяет компаниям автоматизировать большую часть этапов документооборота. Такой подход во многом помогает освободить сотрудников предприятия от рутинных действий, избежать человеческих ошибок при обработке огромных объемов информации, а также повысить скорость работы с документами. Для классификации и извлечения данных из структурированных (анкеты, налоговые декларации), слабоструктурированных (счета на оплату, накладные) и неструктурированных документов (письма, пояснительные записки) при интеллектуальной обработке документов обычно используется такие технологии, как оптическое распознавание символов (англ. OCR, Optical Character Recognition), обработка естественного языка (англ. NLP, Natural Language Processing), RPA-технологии, компьютерное зрение и машинное обучение.

На мой взгляд, автоматизация полезна на таких этапах, как ввод документов, извлечение данных, их упорядочивание и передача в целевую систему, а также хранение документов в едином цифровом пространстве посредством внедрения электронного архива. Однако степень автоматизации любого процесса должна определяться его особенностями, целями и требованиями к проекту, поэтому мы не должны полностью исключать человека из процесса документооборота. Для максимальной эффективности работы любой автоматизированной системы имеет смысл соблюдать баланс скорости и качества, оставляя возможность оператору системы выполнять часть проверок и контроля правильности извлечения данных.

ICT-Online.ru: Какие интересные технологии интеллектуальной обработки документов уже прочно вошли в работу, а какие только появились, но уже вызывают горячий интерес?

Ольга Гриценко: Как несомненные лидеры в области интеллектуальной обработки документов, себя уже давно зарекомендовали такие компании, как ABBYY, Kofax, Automation Anywhere, WorkFusion, Blue Prism и UiPath. Большой популярностью пользуются системы потокового сканирования, такие как, например, ABBYY FlexiCapture или Сойка, включающие полный процесс обработки документов, начиная с их ввода в систему, распознавания и структурирования распознанных данных, до контроля, верификации и интеграции с целевой системой для дальнейшей передачи извлеченной информации и скан-образов документов. Такие системы позволяют построить сложные потоки операций для обработки распознанных данных и предоставляют большое количество инструментов для реализации разнообразных проверок, минимизирующих вмешательство со стороны операторов. Технологии полнотекстового поиска, такие как Elasticsearch или CuneiForm, стали неотъемлемой частью любой системы для создания электронного архива - единого цифрового пространства для удобства хранения всех документов.

Что касается компаний, которые появились на рынке относительно недавно, но уже громко заявили о себе, я бы обратила особое внимание на решение ContentCapture от компании Content AI, которая является технологическим «наследником» ABBYY. Указанное решение сохранило всю обширную экспертизу ABBYY FlexiCapture, при этом оно полностью адаптировано под особенности и потребности российского рынка.

ICT-Online.ru: Есть ли достойные импортозамещающие продукты на российском рынке?

Ольга Гриценко: Конечно, на данный момент интерес представляют не только иностранные компании, но в первую очередь отечественные решения. К примеру, в 2022 году продажи и техподдержка пользователей и партнёров ABBYY в России и СНГ перешли к Content AI. Данная компания выпустила ContentCapture - специальную платформу для интеллектуальной обработки документов с возможностью интеграции решения в ИТ-ландшафт предприятий, работающих с отечественным ПО. Как уже упоминалось выше, к достойным импортозамещающим продуктам можно отнести Soika, SberIDP, Directum Ario One, SmartSel, Nlogic. У каждой системы свой курс развития. Так, SmartSel от АО «Ай-Теко», например, специализируется на обработке естественного языка в комбинации с речевыми технологиями. Кроме того, данная система предоставляет возможность работы с голосовой информацией, подключения систем распознавания и генерации речи. SberIDP, в свою очередь, отличается высоким качеством распознавания в том числе рукопечатного и рукописного текста, а также некоторыми интересными решениями, например, вопросно-ответной системой сервиса SberIDP Query.

Нельзя не отметить российские решения для автоматизации электронных архивов, например, Docsvision, Directum RX, «1C: Архив» и многие другие. Например, Directum предлагает встроенный механизм AI-инструментов и OCR ARIO с возможностью использования в процессах, а модуль потокового ввода Docsvision поддерживает работу со штрихкодами, идентифицирующими документ, слоями распознанного текста. По нашему опыту, внедрение электронного архива с системой распознавания позволяет в 2,5 раза сократить затраты на первичную обработку документации, маршрутизацию и сравнение документов, их регистрацию в журналах.

Интерес вызывает решение SalutRPA. Это RPA-платформа от Сбера, которая позволяет автоматизировать рутинные процессы с помощью программных роботов, легко интегрируется с различными ИТ-решениями, позволяет использовать low-code-инструменты, а также Java, C# и Python. По заявлению производителя решения, для переноса в данную систему алгоритмов с иностранных RPA-платформ достаточно всего одного дня.

ICT-Online.ru: Где еще в ближайшем будущем может начать применяться интеллектуальная обработка данных? Как это изменит процессы работы с данными?

Ольга Гриценко: С одной стороны, по мнению многих экспертов, основными двигателями развития решений интеллектуальной обработки данных еще надолго останутся финансовый сектор и ритейл. Такие предприятия, через которые ежедневно проходят огромные потоки документов, а от эффективности бизнес-процессов и снижения операционных издержек непосредственно зависит их прибыль, будут стимулировать увеличение скорости и качества работы IDP-систем. С другой - такое развитие технологий делает их более доступными для повседневной жизни, например, в области образования. Кроме того, существует ряд узконаправленных решений, которые разработаны для распознавания только определенных типов документов, таких как паспорта, карты, QR-коды, что способствует их востребованности в своей нише менее сложных, но более доступных решений.

ICT-Online.ru: Большое спасибо за беседу!


Читать материал полностью: ICT-Online.

Понравилась статья?

Комментарии (0)
Отправить запрос
* — заполните обязательно
Отправить запрос
* — заполните обязательно