Умеренное управление документом с использованием OCR

Многие предприятия (включая собственное) страдают от непродуктивных процессов, таких как ручная обработка данных. Эти проблемы могут быть решены путем автоматизации, используя структурные системы, такие как CRM и пользовательские инструменты. В течение многих лет я имел дело со сложной средой, которые требуют много обработки данных, анализа и отчетности. И «данные» могут означать все, что цифру.

Некоторое время назад я столкнулся с клиентом, у которого были тысячи неструктурированных документов, они сложены в течение многих лет. И это стало очень непродуктивной средой, особенно когда информация должна быть получена, но не может быть эффективно. К счастью, технологии могут помочь нам. OCR означает распознавание оптического символа, это машина для изучения машины, ориентируясь на экстракцию текста из изображений/изображений.

Предположим, у вас есть сотни файлов, и большинство из них являются копиями паспортов, договоров и счетов. Некоторые изображения были сделаны по телефону, некоторые были отсканированы, некоторые являются файлами PDF, содержащие текст и/или изображения. Демоменные скриншоты ниже иллюстрируют, как мы можем извлечь текст/ключевые слова из этих видов документов.

Используя извлеченный текст/ключевые слова, мы можем обработать эти файлы в соответствии с нашими собственными бизнес-правилами, такими как переименование/копирование/перемещение/резервное копирование; Но мы также можем отправлять/загружать эти файлы на другой трубопровод для дальнейшей обработки. Имейте в виду, что OCR довольно хорош Но это не идеально, он работает лучше всего, когда изображения ясны и не содержат странных символов. Большинство языков поддерживаются.

# Basic usage of our OCR library

import ocr

your_file = './demo_files/doc1.pdf'
text = ocr.process(your_file)

# your business rules
if 'CONTRACT' in text:
  ...
else:
  ...

Так же просто, вам нужно только базовые знания Python, чтобы начать. Для получения дополнительной информации посетите наш хранилище GIT.

https://github.com/healzer/PyCRM

Проект «PYCRM» – это сборник полезных инструментов, советов и трюков для вашего бизнеса. Они могут быть использованы практически в любой отрасли, в которой есть некоторые цифровые процессы: управление клиентами/данными, удалением данных и анализа, отчеты, автоматизация процессов и т. Д.

Оригинал: “https://dev.to/codr/smarter-document-management-using-ocr-14oo”

Читайте ещё по теме: