Автор оригинала: Pankaj Kumar.
В этой статье мы собираемся создать простой сценарий Python, который поможет нам преобразовать PDF в файл TXT. У вас есть различные приложения, которые вы можете загрузить и использовать для PDF to txt Преобразование файлов. Для этого есть много онлайн-приложений, которые также доступны для этой цели, но насколько это будет круто, если вы можете создать свой собственный PDF в TXT-файловый конвертер, используя простой сценарий Python.
Давайте начнем!
Шаги для преобразования PDF в TXT в Python
Без каких-либо дальнейших ADO, давайте начнем с шагов, чтобы преобразовать PDF в TXT.
Шаг 01 – Создайте файл PDF (или найти существующий)
- Откройте новый документ Word.
- Тип в каком-то содержании по вашему выбору в документе Word.
- Теперь в файл> Печать> Сохранить.
- Не забудьте сохранить свой файл PDF в том же месте, где вы сохраняете файл сценария Python.
- Теперь ваш файл .pdf создан и сохранен, который позже конвертирую в файл .txt.
Шаг 02 – Установите PYPDF2
- Во-первых, мы установим внешний модуль с именем Pypdf2 Отказ
- Пакет PypDF2 – это Библиотека Pure-Python PDF Что вы можете использовать для разделения, объединения, обрезки и преобразования PDF. Согласно веб-сайту PypDF2, вы также можете использовать PypDF2 для добавления данных, параметров просмотра и пароли к PDFS.
- Для установки пакета PYPDF2 откройте командную строку Windows и используйте команда PIP Чтобы установить PYPDF2:
C:\Users\Admin>pip install PyPDF2
Collecting PyPDF2 Downloading PyPDF2-1.26.0.tar.gz (77 kB) |████████████████████████████████| 77 kB 1.9 MB/s Using legacy 'setup.py install' for PyPDF2, since package 'wheel' is not installed. Installing collected packages: PyPDF2 Running setup.py install for PyPDF2 ... done Successfully installed PyPDF2-1.26.0
Это успешно установит ваш пакет PypDF2 в вашей системе. Как только он установлен, вы хотите пойти с вашим сценарием.
Шаг 03 – Открытие нового файла Python для скрипта
- Откройте свой Python IDLE и нажмите клавиши Ctrl + N. Это откроет ваш текстовый редактор.
- Вы можете использовать любой другой текстовый редактор вашего предпочтительного выбора.
- Сохраните файл как your_pdf_file_name .
- Сохраните этот файл .py в том же месте, что и ваш файл PDF.
Давайте начнем с кодом сценария
import PyPDF2 #create file object variable #opening method will be rb pdffileobj=open('1.pdf','rb') #create reader variable that will read the pdffileobj pdfreader=PyPDF2.PdfFileReader(pdffileobj) #This will store the number of pages of this pdf file x=pdfreader.numPages #create a variable that will select the selected number of pages pageobj=pdfreader.getPage(x+1) #(x+1) because python indentation starts with 0. #create text variable which will store all text datafrom pdf file text=pageobj.extractText() #save the extracted data from pdf to a txt file #we will use file handling here #dont forget to put r before you put the file path #go to the file location copy the path by right clicking on the file #click properties and copy the location path and paste it here. #put "\\your_txtfilename" file1=open(r"C:\Users\SIDDHI\AppData\Local\Programs\Python\Python38\\1.txt","a") file1.writelines(text)
Вот быстрое объяснение кода:
- Сначала мы создаем Python File Object и откройте файл PDF в режиме «Чтение двоина (RB)»
- Затем мы создаем объект pdffilereader, который прочитал файл, открытый с предыдущего шага
- Переменная используется для хранения количества страниц в файле
- Последняя часть будет писать идентифицированные строки из PDF в текстовый файл, который вы указываете
Выход:
Изображение файла PDF:
Преобразованный файл TXT файла:
Это было вкратце о том, как преобразовать файл PDF в файл TXT, написав свой собственный сценарий Python. Попробуйте!