Рубрики
Без рубрики

Как преобразовать изображение в звук в Python

Привет ребята, В этом уроке я буду направлять по созданию программы Python, способной преобразовать IMA … Теги с питоном, наукой данных, машинным обучением, информатикой.

Привет ребята,

В этом уроке я буду направлять по созданию программы Python, способной преобразовать изображение в звук.

На протяжении всего учебника мы узнаем концепции Оптическое распознавание символов (OCR) и Синтез речи и позже объединить их, чтобы создать единую рабочую программу.

Требования к проекту

Монтаж

$ pip install Pillow
$ pip install gTTS
$ pip install pytesseract

Также в порядке pytesseract Для работы вы должны установить Двигатель Google Tesseract-OCR на вашей машине.

Установить двигатель Tesseract, Нажмите здесь Чтобы получить полную инструкцию по установке в отношении вашей операционной системы

Теперь после того, как все будет установлено, давайте начнем создавать нашу программу

Проектная папка

В папке проекта у вас должен быть образец изображения, содержащий текст, который мы могли бы использовать для проверки нашей программы

.
├── app.py
└── image.jpg

0 directories, 2 files 

Наш проект будет разделен на две основные части

  • Преобразование изображения в текст (оптическое распознавание символов)
  • Преобразование сгенерированного текста в речь (синтез речи)

Преобразование изображения в текст

На этом этапе мы используем библиотеку Python pytesseract выполнить оптическое распознавание символов, которое можно сделать только в одной строке кода.

Но непосредственно перед тем, как мы начнем выполнять оптическое распознавание символов на нашем изображении, нам нужен способ загрузить изображение в требуемый формат,

На этом мы будем использовать библиотеку подушек, давайте посмотрим, как преобразовать изображение в текст, используя pytesseract и подушку, как показано в примере

Пример использования

>>> from PIL import Image
>>> from pytesseract import image_to_string
>>> text = image_to_string(Image.open('image.jpg'))
'JOBS FILL\nYflUR POCKET.\nADVENTURES\nFILL YOUR\nLIFE.'

Вот как вы можете легко выполнить OCR всего за 1 строку кода, теперь давайте посмотрим, как мы можем преобразовать его в речь, используя Gtts

Преобразование сгенерированного текста в речь

Есть разные способы, которыми вы конвертируете в речь в текст в Python, если вы хотите просмотреть их все, что можете КЛИКНИТЕ СЮДА

В этом уроке мы собираемся использовать текст Google для речи, чтобы преобразовать наш декодированный текст в звук.

Gtts

Синтаксис для выполнения текста к речи очень прост, вы также можете сделать это всего лишь одну строку кода, как показано в примере ниже

>>> from gtts import gTTS
>>> gTTS('Coding is awesome trust me').save('sound.mp3')

Окончательная программа

Я сделал приведенную ниже простую программу, используя знания, которые мы только что узнали выше, с добавлением более чистой функции, чтобы удалить \ n в сгенерированном тексте, чтобы сделать его легко кабриованным для звука.

from PIL import Image
from gtts import gTTS
from pytesseract import image_to_string
clean = lambda text : ' '.join(text.split('\n'))
to_text = lambda image: clean(image_to_string(Image.open(image)))
to_sound = lambda text: gTTS(text, lang='en').save('gene.mp3')
image_to_sound  = lambda image: to_sound(to_text(image))
image_to_sound('image.jpg')
input()

Когда вы запустите приведенный выше код, он откроет наше примеры изображения, выполнит оптическое распознавание символов, очистите сгенерированный текст, удалив \ n, преобразуйте в звук, используя Gtts

Если вам это интересно, не стесняйтесь поделиться этим со своими друзьями в Твиттере и в других социальных сетях.

Оригинальная статья можно найти на kalebujordan.com

Калебу/Изображение к питону-

Проект для преобразования изображения в слышимый звук с использованием OCR и синтеза речи в Python

вступление

Этот репо поможет вам начать с того, как вы можете начать с оптического распознавания персонажей ( ocr ) и синтез речи в Python, создав простой проект, который будет преобразовать изображение в слышимые звуки, сочетая оба Ocr и Синтез речи в одном приложении

Полная статья

Полную статью для этого исходного кода можно найти на Мой блог В статье под названием Как преобразовать изображение в звук в Python Анкет

Начиная

Чтобы использовать этот код, сначала клонируйте репо, используя git или загрузите zip -файл вручную

$-> git clone https://github.com/Kalebu/image-to-sound-python-
$->cd image-to-sound-python-
$ image-to-sound-python--> python app.py

Зависимости

Чтобы запустить этот код, у вас должно быть pytesseract и Google Text to Sound Libary установлен на вашей машине, вы можете просто использовать Pip командовать этому.

-> pip install pytesseract
->

Оригинал: “https://dev.to/kalebu/how-to-convert-image-to-sound-in-python-4pnf”