Обновление в моем сценарии манипуляции файла PDF

Привет, в моем предыдущем посте у меня возникла проблема о том, как искать большой файл PDF для ключевого слова, который можно найти на нескольких страницах файла и в некоторых случаях более одного раза на одной странице!

Я использовал Pypdf2 Чтобы открыть данный файл PDF, затем извлеките текстовую страницу по странице, ищите этот текст для заданного ключевого слова, а затем проверьте, на какую страницу было найдено ключевое слово и сколько раз на страницу и, наконец, разделите эти страницы из исходного файла и объединяют их Все вместе, чтобы создать свой последний файл, чтобы его можно было напечатать с полезными данными, а не с другими не полезными данными из исходного файла.

Все отлично работает с тестом/фиктивными данными в Английский Символы, но оригинальный файл находится в Греческий и Pdfpageobj.extraCtText () Функция Pypdf2 Возвращает пустую строку.

Так как бы вы подошли к этой проблеме? Какие-либо предложения?

Оригинал: “https://dev.to/gemgr/update-on-my-pdf-file-manipulation-script-44el”

Читайте ещё по теме: