Рубрики
Без рубрики

Оптический распознавание символов и перевод в Python

Сегодня позвольте мне поговорить с вами о OCR и удивительных вещах, которые мы можем использовать.

Автор оригинала: Pankaj Kumar.

Здравствуйте, читатели. Сегодня позвольте мне поговорить с вами о распознании оптического персонажа и перевод в Python и удивительные вещи, которые мы можем использовать его для.

Что такое распознавание оптического персонажа?

Оптическое распознавание символов, обычно сокращенное до ОКР Влечет за собой механическое и электрическое перевод в компьютерный текст отсканированных изображений печатных, машинописных текста.

Оцифровка типизированных текстов – это популярная техника, которую они могут быть обыскиваются в электронном виде, обработаны более компактно, показаны в Интернете и используются в компьютерных процессах, таких как машина для машинного оборудования, текст для голоса и добыча текста.

Технология OCR (распознавание оптического символа) была реализована на широком континууме секторов в последние годы, революционизируя метод управления документом.

OCR позволил отсканированным документам стать более чем просто архивами изображения, преобразовав их в полностью поисковые документы с распознанным компьютером текстового контента.

С помощью OCR, после ввода их в электронные файлы, частные лица больше не нуждаются в выводе основных записей вручную.

Вместо этого OCR собирает и сразу попадает в соответствующую информацию.

За меньшее время эффект точен, эффективная обработка информации.

Существует много исследовательских областей для распознавания оптического характера, но наиболее важные области следующие:

  • Банковская деятельность
  • Лица, которые слепыми и визуально нарушены
  • Департамент юридического офиса
  • Промышленная розничная торговля
  • Другие сектора, включая отделы в образовании, банковское дело и администрацию.

Как распознать текст из изображений с помощью Python?

Сегодня мы сделаем снимок неанглийской газеты из Интернета и выполняем Оптическое распознавание символов Отказ Это преобразует изображение в буквенно-цифровые символы.

Затем мы переведем это на английский по существу, читать , газета.

Вы можете прочитать газеты и книги со всего мира, не зная языка!

1. Скачать газетные изображения

Во-первых, давайте скачаем газетное отсечение. Для этого мы будем использовать команду wget. Вы можете просто загрузить файл и сохранить его в той же папке, что и ваш код.

!wget 'http://www.rhitisports.com/india/wp-content/uploads/2014/06/National-Duniya.jpg' > 'newspaper.jpg'

Мы можем показать наше загруженное изображение с:

import PIL
from PIL import ImageDraw
im = PIL.Image.open("National-Duniya.jpg")
im

2. Установите EasedOrr для распознавания оптического символа

Это библиотека Python, которую мы собираемся использовать. Он имеет поддержку более 70 языков!

На бэкэнде он использует методы обучения Pytorch и Deep Transfer от VGG16_BN и других.

Если вы устанавливаете на Google Colab, как я, то вам нужно будет сделать:

!pip install easyocr --no-deps

Google Colab рекомендуется, потому что это требует ГПУ и может быть вполне налогом на персональном ПК.

3. Дисплей Список языка поддержки

Это список, который я сделал из всех ярлыков для языков:

lang = ['abq','ady','af','ang','ar','as','ava','az','be',
        'bg','bh','bho','bn','bs','ch_sim','ch_tra','che',
        'cs','cy','da','dar','de','en','es','et','fa','fr',
        'ga','gom','hi','hr','hu','id','inh','is','it','ja',
        'kbd','ko','ku','la','lbe','lez','lt','lv','mah','mai',
        'mi','mn','mr','ms','mt','ne','new','nl','no','oc','pl',
        'pt','ro','ru','rs_cyrillic','rs_latin','sck','sk','sl', 'sq','sv','sw','ta','tab','th','tl','tr','ug','uk','ur','uz','vi']

4. Создайте языковую модель

Следующим шагом является настройка языковой модели. В нашем случае мы знаем, что язык газеты – хинди. Мы будем использовать модель языка Hindi-English (Hi-En).

Посмотрите, как вы можете установить это.

reader = easyocr.Reader(['hi','en'])

Это займет несколько секунд.

5. Создайте ограничивающие коробки

Тогда мы позволяем модели прочитать результат и создавать ограничивающие коробки:

result = reader.readtext('National-Duniya.jpg')
bounds = reader.readtext('National-Duniya.jpg')

Мы также можем нарисовать эти ограничительные коробки на самом изображении:

def draw_boxes(image, bounds, color='red', width=2):
    draw = ImageDraw.Draw(image)
    for bound in bounds:
        p0, p1, p2, p3 = bound[0]
        draw.line([*p0, *p1, *p2, *p3, *p0], fill=color, width=width)
    return image
draw_boxes(im, bounds)

Как видите, весь текст правильно читается.

print(len(result))

Вышеуказанная линия дает нам вывод как 75 Отказ Что означает, что есть 75 строк текста.

Мы можем объединить его в один большой текст, используя соединение и список:

res = " ".join([line[1] for line in result])
res

Результат довольно точен:

National Duniya New Delhi, १३ June २०१४ सौ खिलाड़ियों की सूची में ११्वें स्थान पर रै भारतीय क्रिकेट कप्तान रैंक धोनी फोर्ब्स की सबसे अमीर खिलाड़ियों की सूची में ( एजेंसी भारतीय क्रिकेट शामिल है न्यूयॉर्क कीकुत रोबाल्डो कमाई नवदर ब पिछत रकसात मं मेवेदर ने पिछले एक साल में टीम के कप्तान महेंद्र सिंह धोनी आठ करोडडॉतर रती और दस कराड़ ५० नाखडॅवर की दस करोड़ ५० लाखडालर की फोर्ब्स की सबसे अमीर सौ वर दूसर स्थाब पर ऐैं कगाई की रै |इरासे वरतीब खिलाडियों कोीं सूची में अकेले कमाईं की है|इससे वह तीोन साल में साल गें दूसरी बर दुनिया के भारतीय हैं बार दुनिया के सबसे अमीर दूसरी मैड्रिड के सनसे अगैर खिताड़ी रो गर | सूचो में अमेरिकी मुक्केबाज खिलाड़ी हो गरIरियल फ्लायड मेवेदर शीर्ष पर हैं जबकि स्टार फुटबॉलर क्रिस्टियानो रोनाल्डो समेत १५ फुटबॉलर शीर्ष इसमें गोल्फर टाइगर वुड्स और तेककारेद् धोनी की कुल कमाई टेनिस स्टार रोजर फेडरर तथा १०० में हैं | रोनाल्डो की कुल कमाई डॉलर ओरँविज्ञापनों से कमाई रफेल नडाल भी हैं FITSOUL आठ करोड़ डालर रही और वह करोड़ ८० लाख डॉलर रै |वर सूची धोनी को कुल कमाई तीन करोड़ दूसरे स्थान पर हैं में ११वें स्थान परऐ डालर और विज्ञापनों सेकमाईदे अमेरिकी बास्केटबाल खिलाड़ी करोड़ ६० लाखडालर है|वह सूची फोर्ब्सने बताय कि धोनी भारत धोनीने २०१३ के आखिरमें रीबाक के साथ उनके करार सेयह लेबोन जेन्स तीसरे और अजेंटीना में २२चें स्थान पर हैं |फोर्ब्स ने कहा के सर्वश्रेष्ठ कप्तानों में सेएक हैं के फुटबॉलर लियोनेल मैसी चौथे दस लाख डालर अधिक था|उनकी बल्ल क लिए प्रायाजन करार स्पार्टन स्पोर्ट्स और एमिटी स्थान पर हैं | वुड्स छठे स्थान पर हैं कि वेतन और विज्ञापनों को कमाई कमाई में जून २०१३ से जून २०१४ वह आईसीसी के तीनों खिताब यूनिवर्सिटी सेकिया जो करीब ४० फेडरर सतवें और नडाल नौवें के दम पर धोनी की जून २०१४ में जीतने चाले पहले भारतीय तक वेतन, बोनस इनामी राशि, कप्तान हैं अपीयरेंस फीस, विज्ञापन से कमाई स्थान पर हैं अय४० लाखडालररहा लाख डालर का थाIइसस पहल

6. Перевести выходной текст на английский

Если я не знаю языка, который был признан Eaverocr, мне понадобится помощь с получением его переведенной. Итак, давайте возьмем помощь одного из лучших языковых apis перевода – Google Translate. Вы можете установить то же самое, используя Python Pip:

!pip install googletrans

Теперь мы можем перевести наш вышеуказанный текст:

from googletrans import Translator

translator = Translator()
translator.translate(res).text

Что дает нам:

National Duniya New Delhi, 13 June 2014 Ranked 11th in the list of hundred players, Indian cricket captain rank Dhoni in Forbes list of richest players (agency Indian cricket includes New York Kikut Robaldo earning Navdar and Mayweather in backward raksat last year In the team captain Mahendra Singh Dhoni has earned eight crores of millions and ten crores of 50 crores and ten crores of 50 million dollars, for the richest hundred of Forbes, he is the only player in the list of erratic players. In the second year in the world, Indians are the second time in the world, the second richest in the world, after the second richest Madrid, the American boxer player is in the list. Real Floyd Mayweather is on top, while 15 footballer including star footballer Cristiano Ronaldo is the top golfer Tiger Woods and Tekkared Dhoni's total earnings are in tennis star Roger Federer and 100. Ronaldo's total earnings from dollars and advertisements are Rafael Nadal also FITSOUL was 80 million dollars and he got $ 60 million. Ranked 11th in the US with $ 11 million and American Basketball player in advertisements worth Rs 70 lakh. That list was reported by Forbes as Dhoni India Dhoni ranked third in LeBon Jones and 22nd in Argentina by his tie with Reebak at the end of 2013. One of the best captains of the season is that footballer Lionel Massey was fourth in a million dollars. The Spartan Sports and Amity ranks for his batting. Woods is in sixth position in earning salary and advertisements from June 2013 to June, 2016, he won all three ICC titles at University Sekia, which was the first Indian to win Dhoni's win in June 2014 on the basis of 60 Federer Satv and Nadal Ninth. The amount is the captain, the appearance fees, earning from advertising is in place, it was 70 lakh dollars and it was worth millions of dollars.

Таким образом, я прочитал газету на языке, с которым мне менее удобно.

Помимо газеты, он имеет широкий спектр применений:

  • Заказ еды в китайском/японском ресторане
  • Путешествие на Ближний Восток
  • Чтение уличных знаков и т. Д.

Завершение примечания

Если вам понравилось читать эту статью и хочу прочитать больше, продолжайте следовать на сайте! У нас много интересных статей предстоящих в ближайшее время. Чтобы оставаться в курсе всех статей, не забудьте присоединиться к нам на Twitter и зарегистрироваться на рассылку для некоторых интересных читателей!