Привет ребята,
В этом уроке я буду направлять по созданию программы Python, способной преобразовать изображение в звук.
На протяжении всего учебника мы узнаем концепции Оптическое распознавание символов (OCR) и Синтез речи и позже объединить их, чтобы создать единую рабочую программу.
Требования к проекту
Монтаж
$ pip install Pillow $ pip install gTTS $ pip install pytesseract
Также в порядке pytesseract Для работы вы должны установить Двигатель Google Tesseract-OCR на вашей машине.
Установить двигатель Tesseract, Нажмите здесь Чтобы получить полную инструкцию по установке в отношении вашей операционной системы
Теперь после того, как все будет установлено, давайте начнем создавать нашу программу
Проектная папка
В папке проекта у вас должен быть образец изображения, содержащий текст, который мы могли бы использовать для проверки нашей программы
. ├── app.py └── image.jpg 0 directories, 2 files
Наш проект будет разделен на две основные части
- Преобразование изображения в текст (оптическое распознавание символов)
- Преобразование сгенерированного текста в речь (синтез речи)
Преобразование изображения в текст
На этом этапе мы используем библиотеку Python pytesseract выполнить оптическое распознавание символов, которое можно сделать только в одной строке кода.
Но непосредственно перед тем, как мы начнем выполнять оптическое распознавание символов на нашем изображении, нам нужен способ загрузить изображение в требуемый формат,
На этом мы будем использовать библиотеку подушек, давайте посмотрим, как преобразовать изображение в текст, используя pytesseract и подушку, как показано в примере
Пример использования
>>> from PIL import Image >>> from pytesseract import image_to_string >>> text = image_to_string(Image.open('image.jpg')) 'JOBS FILL\nYflUR POCKET.\nADVENTURES\nFILL YOUR\nLIFE.'
Вот как вы можете легко выполнить OCR всего за 1 строку кода, теперь давайте посмотрим, как мы можем преобразовать его в речь, используя Gtts
Преобразование сгенерированного текста в речь
Есть разные способы, которыми вы конвертируете в речь в текст в Python, если вы хотите просмотреть их все, что можете КЛИКНИТЕ СЮДА
В этом уроке мы собираемся использовать текст Google для речи, чтобы преобразовать наш декодированный текст в звук.
Gtts
Синтаксис для выполнения текста к речи очень прост, вы также можете сделать это всего лишь одну строку кода, как показано в примере ниже
>>> from gtts import gTTS >>> gTTS('Coding is awesome trust me').save('sound.mp3')
Окончательная программа
Я сделал приведенную ниже простую программу, используя знания, которые мы только что узнали выше, с добавлением более чистой функции, чтобы удалить \ n в сгенерированном тексте, чтобы сделать его легко кабриованным для звука.
from PIL import Image from gtts import gTTS from pytesseract import image_to_string clean = lambda text : ' '.join(text.split('\n')) to_text = lambda image: clean(image_to_string(Image.open(image))) to_sound = lambda text: gTTS(text, lang='en').save('gene.mp3') image_to_sound = lambda image: to_sound(to_text(image)) image_to_sound('image.jpg') input()
Когда вы запустите приведенный выше код, он откроет наше примеры изображения, выполнит оптическое распознавание символов, очистите сгенерированный текст, удалив \ n, преобразуйте в звук, используя Gtts
Если вам это интересно, не стесняйтесь поделиться этим со своими друзьями в Твиттере и в других социальных сетях.
Оригинальная статья можно найти на kalebujordan.com
Калебу/Изображение к питону-
Проект для преобразования изображения в слышимый звук с использованием OCR и синтеза речи в Python
вступление
Этот репо поможет вам начать с того, как вы можете начать с оптического распознавания персонажей ( ocr ) и синтез речи в Python, создав простой проект, который будет преобразовать изображение в слышимые звуки, сочетая оба Ocr и Синтез речи в одном приложении
Полная статья
Полную статью для этого исходного кода можно найти на Мой блог В статье под названием Как преобразовать изображение в звук в Python Анкет
Начиная
Чтобы использовать этот код, сначала клонируйте репо, используя git или загрузите zip -файл вручную
$-> git clone https://github.com/Kalebu/image-to-sound-python- $->cd image-to-sound-python- $ image-to-sound-python--> python app.py
Зависимости
Чтобы запустить этот код, у вас должно быть pytesseract и Google Text to Sound Libary установлен на вашей машине, вы можете просто использовать Pip командовать этому.
-> pip install pytesseract ->
Оригинал: “https://dev.to/kalebu/how-to-convert-image-to-sound-in-python-4pnf”