Рубрики
Без рубрики

Преобразовать PDF в TXT файл с помощью Python

В этой статье мы собираемся создать простой сценарий Python, который поможет нам преобразовать PDF в файл TXT. У вас есть различные приложения, которые вы можете скачать

Автор оригинала: Pankaj Kumar.

В этой статье мы собираемся создать простой сценарий Python, который поможет нам преобразовать PDF в файл TXT. У вас есть различные приложения, которые вы можете загрузить и использовать для PDF to txt Преобразование файлов. Для этого есть много онлайн-приложений, которые также доступны для этой цели, но насколько это будет круто, если вы можете создать свой собственный PDF в TXT-файловый конвертер, используя простой сценарий Python.

Давайте начнем!

Шаги для преобразования PDF в TXT в Python

Без каких-либо дальнейших ADO, давайте начнем с шагов, чтобы преобразовать PDF в TXT.

Шаг 01 – Создайте файл PDF (или найти существующий)

  • Откройте новый документ Word.
  • Тип в каком-то содержании по вашему выбору в документе Word.
  • Теперь в файл> Печать> Сохранить.
  • Не забудьте сохранить свой файл PDF в том же месте, где вы сохраняете файл сценария Python.
  • Теперь ваш файл .pdf создан и сохранен, который позже конвертирую в файл .txt.

Шаг 02 – Установите PYPDF2

  • Во-первых, мы установим внешний модуль с именем Pypdf2 Отказ
  • Пакет PypDF2 – это Библиотека Pure-Python PDF Что вы можете использовать для разделения, объединения, обрезки и преобразования PDF. Согласно веб-сайту PypDF2, вы также можете использовать PypDF2 для добавления данных, параметров просмотра и пароли к PDFS.
  • Для установки пакета PYPDF2 откройте командную строку Windows и используйте команда PIP Чтобы установить PYPDF2:
C:\Users\Admin>pip install PyPDF2
Collecting PyPDF2
  Downloading PyPDF2-1.26.0.tar.gz (77 kB)
     |████████████████████████████████| 77 kB 1.9 MB/s
Using legacy 'setup.py install' for PyPDF2, since package 'wheel' is not installed.
Installing collected packages: PyPDF2
    Running setup.py install for PyPDF2 ... done
Successfully installed PyPDF2-1.26.0

Это успешно установит ваш пакет PypDF2 в вашей системе. Как только он установлен, вы хотите пойти с вашим сценарием.

Шаг 03 – Открытие нового файла Python для скрипта

  • Откройте свой Python IDLE и нажмите клавиши Ctrl + N. Это откроет ваш текстовый редактор.
  • Вы можете использовать любой другой текстовый редактор вашего предпочтительного выбора.
  • Сохраните файл как your_pdf_file_name .
  • Сохраните этот файл .py в том же месте, что и ваш файл PDF.

Давайте начнем с кодом сценария

import PyPDF2

#create file object variable
#opening method will be rb
pdffileobj=open('1.pdf','rb')

#create reader variable that will read the pdffileobj
pdfreader=PyPDF2.PdfFileReader(pdffileobj)

#This will store the number of pages of this pdf file
x=pdfreader.numPages

#create a variable that will select the selected number of pages
pageobj=pdfreader.getPage(x+1)

#(x+1) because python indentation starts with 0.
#create text variable which will store all text datafrom pdf file
text=pageobj.extractText()

#save the extracted data from pdf to a txt file
#we will use file handling here
#dont forget to put r before you put the file path
#go to the file location copy the path by right clicking on the file
#click properties and copy the location path and paste it here.
#put "\\your_txtfilename"
file1=open(r"C:\Users\SIDDHI\AppData\Local\Programs\Python\Python38\\1.txt","a")
file1.writelines(text)

Вот быстрое объяснение кода:

  • Сначала мы создаем Python File Object и откройте файл PDF в режиме «Чтение двоина (RB)»
  • Затем мы создаем объект pdffilereader, который прочитал файл, открытый с предыдущего шага
  • Переменная используется для хранения количества страниц в файле
  • Последняя часть будет писать идентифицированные строки из PDF в текстовый файл, который вы указываете

Выход:

Конвертировать PDF в TXT

Изображение файла PDF:

Конвертировать PDF в TXT

Преобразованный файл TXT файла:

Слово

Это было вкратце о том, как преобразовать файл PDF в файл TXT, написав свой собственный сценарий Python. Попробуйте!