Как обработать текст из файлов PDF в Python?

Автор оригинала: Pankaj Kumar.

PDFS – это обычный способ поделиться текстом. PDF обозначает Портативный формат документа и использует .PDF Расширение файла Отказ Он был создан в начале 1990-х годов Adobe Systems.

Чтение документов PDF с помощью Python может помочь вам автоматизировать широкий спектр задач.

В этом руководстве мы узнаем, как Извлечь текст из файла PDF в Python Отказ

Давайте начнем.

Чтение и извлечение текста из файла PDF в Python

Для целей этого учебника мы создаем образец PDF с 2 страницами. Вы можете сделать это, используя любой процессор Word, например, Microsoft Word или Google Docs, и сохранить файл в виде PDF.

Текст на стр. 1:

Hello World. 
This is a sample PDF with 2 pages. 
This is the first page.

Текст на стр. 2:

This is the text on Page 2.

Использование PYPDF2 для извлечения текста PDF

Вы можете использовать Pypdf2 Чтобы извлечь текст из PDF. Посмотрим, как это работает.

1. Установите пакет

Чтобы установить PYPDF2 в вашу систему введите следующую команду на вашем терминале. Вы можете узнать больше о диспетчере пакета PIP.

pip install pypdf2

2. Импортировать PYPDF2.

Откройте новую ноутбуку Python и начните с импорта PYPDF2.

import PyPDF2

3. Откройте PDF в двоичном режиме

Начните с открытия PDF в чтении двоичного режима, используя следующую строку кода:

pdf = open('sample_pdf.pdf', 'rb')

Это создаст Объект pdffilereader Для нашего PDF и храните его в переменной ‘ PDF ‘.

4. Используйте pypdf2.pdffilereader () для чтения текста

Теперь вы можете использовать Pdffilereader () метод pypdf2 для чтения файла.

pdfReader = PyPDF2.PdfFileReader(pdf)

Чтобы получить текст с первой страницы PDF, используйте следующие строки кода:

page_one = pdfReader.getPage(0)
print(page_one.extractText())

Мы получаем вывод как:

Hello World. 
!This is a sample PDF with 2 pages. !This is the first page. !

Process finished with exit code 0

Здесь мы использовали метод GetPage для хранения страницы в качестве объекта. Затем мы использовали метод ExtractText (), чтобы получить текст с объекта страницы.

Текст, который мы получаем, имеет тип Нить.

Аналогично получить вторую страницу от использования PDF:

page_one = pdfReader.getPage(1)
print(page_one.extractText())

Мы получаем вывод как:

This is the text on Page 2.

Заполните код для чтения текста PDF с помощью PypDF2

Полный код из этого раздела приведен ниже:

import PyPDF2
pdf = open('sample_pdf.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdf)
page_one = pdfReader.getPage(0)
print(page_one.extractText())

Если вы заметите, что форматирование первой страницы немного выключено на выходе выше. Это связано с тем, что PYPDF2 не очень эффективен при чтении PDF.

К счастью, python имеет лучшую альтернативу pypdf2. Мы собираемся посмотреть на это дальше.

Используя pdfplumber для извлечения текста

Pdfplumber другой инструмент, который может извлечь текст из PDF. Это мощнее по сравнению с PYPDF2.

1. Установите пакет

Давайте начнем с установки PDFPlumber.

pip install pdfplumber

2. Импортировать PDFPlumber

Начните с импорта PDFPlumber, используя следующую строку кода:

import pdfplumber

3. Использование PDFPlumber для чтения PDFS

Вы можете начать читать PDFS, используя PDFPlumber со следующим куском кода:

with pdfplumber.open("sample_pdf.pdf") as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())

Это получит текст с первой страницы нашего PDF. Выход поставляется как:

Hello World. 

This is a sample PDF with 2 pages. 

This is the first page. 


Process finished with exit code 0

Вы можете сравнить это с выходом PypDF2 и посмотреть, как PDFPlumber лучше, когда речь идет о форматировании.

PDFPlumber также предоставляет возможности получить другую информацию из PDF.

Например, вы можете использовать .page_number Чтобы получить номер страницы.

print(first_page.page_number)

Выход:

Чтобы узнать больше о методах под PDFPLUBM, см. Его официально документация.

Заключение

Это руководство было о чтении текста от PDFS. Мы посмотрели на два разных инструмента и видели, как можно лучше другого.

Теперь, когда вы знаете, как читать текст из PDF, вы должны прочитать наш учебник по токенизации, чтобы начать работу с обработкой натуральной языки!

Чтение и извлечение текста из файла PDF в Python

Использование PYPDF2 для извлечения текста PDF

1. Установите пакет

2. Импортировать PYPDF2.

3. Откройте PDF в двоичном режиме

4. Используйте pypdf2.pdffilereader () для чтения текста

Заполните код для чтения текста PDF с помощью PypDF2

Используя pdfplumber для извлечения текста

1. Установите пакет

2. Импортировать PDFPlumber

3. Использование PDFPlumber для чтения PDFS

Заключение

Читайте ещё по теме: