Автор оригинала: Neeraj Sujan.
Если вы являетесь ученым данных или Aspire, чтобы быть одним из инвестиций вашего времени в обучении Обработка натурального языка (NLP) будет вложения в ваше будущее. 2020 увидели всплеск в области обработки естественного языка. В этом сообщении вы найдете 5 популярных библиотек NLP, и это приложения.
Библиотеки предварительной обработки
Предварительная обработка решающего этапа в любом машинном обучении трубопровода. Если вы создаете языковую модель, вам придется создать вектор слова, который включает в себя удаление сложных слов и преобразование слов в его корневую форму.
# 1 Spacy
Spacy является популярной библиотекой Python для токенизации предложения, лемматизации и stemming. Это библиотека отрасли, которую можно использовать для предварительной обработки текста и тренировочных текстовых классификаторов на основе глубокого обучения.
Начало работы с SPACY: именованное распознавание сущности является важной задачей в обработке естественных языков. Нер помогает в извлечении важных объектов, таких как местоположение, названия организаций и т. Д.
import spacy # python -m spacy download en_core_web_sm nlp = spacy.load('en_core_web_sm') sentences = ['Stockholm is a beautiful city', 'Mumbai is a vibrant city' ] for sentence in sentences: doc = nlp(sentence) for entity in doc.ents: print(entity.text, entity.label_) print(spacy.explain(entity.label_))
Приведенный выше код обрабатывает два предложения и извлекает местоположение в обоих предложениях.
Давайте теперь увидим вывод
Как видно из вывода, код удалось извлечь Стокгольм и Мумбаи и ассоциировал их с этикеткой GPE, которая указывает на страны, города или штаты.
# 2 НЛТК
NLTK это еще одна популярная библиотека Python для предварительной обработки текста. Он был начат как академический проект, и вскоре стал очень популярным среди исследователей и академиков.
Давайте посмотрим, как мы можем сделать часть метки речи, используя NLTK. Часть метки речи используется для извлечения важной части речи, как существительные, местоимения, наречия, прилагательные и т. Д.
import nltk import os sentence = "Python is a beautiful programming language." tokens = nltk.word_tokenize(sentence) tagged = nltk.pos_tag(tokens) entities = nltk.chunk.ne_chunk(tagged) print(entities)
Части речи, которые были извлечены из вышеуказанного предложения
(S (GPE Python/NNP) is/VBZ a/DT beautiful/JJ programming/NN language/NN ./.)
Приложения
Народное применение NLP состоит в том, чтобы классифицировать документ в данный набор этикеток. Существует ряд библиотек Python, которые могут помочь вам обучать моделей на основе глубоких учений для моделирования темы, суммирования текста, анализа настроения и т. Д. Давайте посмотрим на некоторые из этих популярных библиотек
Большинство глубоких учебных моделей NLP полагаются на претендующие языковые модели с использованием процесса, называемого обучением передачи. Огромный корпус документа обучен, а затем эта модель может быть полностью настроена для определенного домена. Некоторые популярные библиотеки, которые помогают в использовании подрегулированных моделей и строительной отрасли сорта NLP-приложений, являются
# 3 Ферма
Ферма является популярным пакетом с открытым исходным кодом, разработанным Берлинской компанией. Он используется для облегчения срока службы разработчиков, предоставляя некоторые приятные функции, такие как отслеживание эксперимента, многозадачное обучение и распараллелированная обработка документов.
# 4 Flair.
Флайр является популярным Pytorch основанным на основе PyyTorch, которая помогает разработчикам построить состояние приложений NLP, таких как именованное распознавание объекта, часть-речевой метки, определение определения и классификации.
# 5 трансформаторы
Трансформаторы Это популярная библиотека Python, чтобы легко получить доступ к прорезанным моделям и поддерживает как PyTorch, так и для Tensorflow. Если вы хотите построить целый трубопровод NLP, используя предварительные модели для понимания естественного языка и поколению и генерации Transformers сделают вашу жизнь проще.
# 6 Генсим
Генсим Это еще одна популярная библиотека Python, широко используемая для моделирования темы и обеспечивает простой в использовании интерфейс для популярных алгоритмов, таких как Word2Vec, чтобы найти синонимичные слова.
Оригинал: “https://blog.finxter.com/6-best-python-nlp-libraries/”