6 лучших библиотек NLP Python NLP

Автор оригинала: Neeraj Sujan.

Если вы являетесь ученым данных или Aspire, чтобы быть одним из инвестиций вашего времени в обучении Обработка натурального языка (NLP) будет вложения в ваше будущее. 2020 увидели всплеск в области обработки естественного языка. В этом сообщении вы найдете 5 популярных библиотек NLP, и это приложения.

Библиотеки предварительной обработки

Предварительная обработка решающего этапа в любом машинном обучении трубопровода. Если вы создаете языковую модель, вам придется создать вектор слова, который включает в себя удаление сложных слов и преобразование слов в его корневую форму.

# 1 Spacy

Spacy является популярной библиотекой Python для токенизации предложения, лемматизации и stemming. Это библиотека отрасли, которую можно использовать для предварительной обработки текста и тренировочных текстовых классификаторов на основе глубокого обучения.

Начало работы с SPACY: именованное распознавание сущности является важной задачей в обработке естественных языков. Нер помогает в извлечении важных объектов, таких как местоположение, названия организаций и т. Д.

import spacy

# python -m spacy download en_core_web_sm
nlp = spacy.load('en_core_web_sm')

sentences = ['Stockholm is a beautiful city',
           'Mumbai is a vibrant city'
           ]

for sentence in sentences:
   doc = nlp(sentence)
   for entity in doc.ents:
       print(entity.text, entity.label_)
       print(spacy.explain(entity.label_))

Приведенный выше код обрабатывает два предложения и извлекает местоположение в обоих предложениях.

Давайте теперь увидим вывод

Как видно из вывода, код удалось извлечь Стокгольм и Мумбаи и ассоциировал их с этикеткой GPE, которая указывает на страны, города или штаты.

# 2 НЛТК

NLTK это еще одна популярная библиотека Python для предварительной обработки текста. Он был начат как академический проект, и вскоре стал очень популярным среди исследователей и академиков.

Давайте посмотрим, как мы можем сделать часть метки речи, используя NLTK. Часть метки речи используется для извлечения важной части речи, как существительные, местоимения, наречия, прилагательные и т. Д.

import nltk
import os

sentence = "Python is a beautiful programming language."
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
entities = nltk.chunk.ne_chunk(tagged)
print(entities)

Части речи, которые были извлечены из вышеуказанного предложения

 (S
   (GPE Python/NNP)
   is/VBZ
   a/DT
   beautiful/JJ
   programming/NN
   language/NN
   ./.)

Приложения

Народное применение NLP состоит в том, чтобы классифицировать документ в данный набор этикеток. Существует ряд библиотек Python, которые могут помочь вам обучать моделей на основе глубоких учений для моделирования темы, суммирования текста, анализа настроения и т. Д. Давайте посмотрим на некоторые из этих популярных библиотек

Большинство глубоких учебных моделей NLP полагаются на претендующие языковые модели с использованием процесса, называемого обучением передачи. Огромный корпус документа обучен, а затем эта модель может быть полностью настроена для определенного домена. Некоторые популярные библиотеки, которые помогают в использовании подрегулированных моделей и строительной отрасли сорта NLP-приложений, являются

# 3 Ферма

Ферма является популярным пакетом с открытым исходным кодом, разработанным Берлинской компанией. Он используется для облегчения срока службы разработчиков, предоставляя некоторые приятные функции, такие как отслеживание эксперимента, многозадачное обучение и распараллелированная обработка документов.

# 4 Flair.

Флайр является популярным Pytorch основанным на основе PyyTorch, которая помогает разработчикам построить состояние приложений NLP, таких как именованное распознавание объекта, часть-речевой метки, определение определения и классификации.

# 5 трансформаторы

Трансформаторы Это популярная библиотека Python, чтобы легко получить доступ к прорезанным моделям и поддерживает как PyTorch, так и для Tensorflow. Если вы хотите построить целый трубопровод NLP, используя предварительные модели для понимания естественного языка и поколению и генерации Transformers сделают вашу жизнь проще.

# 6 Генсим

Генсим Это еще одна популярная библиотека Python, широко используемая для моделирования темы и обеспечивает простой в использовании интерфейс для популярных алгоритмов, таких как Word2Vec, чтобы найти синонимичные слова.

Оригинал: “https://blog.finxter.com/6-best-python-nlp-libraries/”