Токенизация в Python с использованием NLTK

Автор оригинала: Pankaj Kumar.

Давайте научимся реализовывать токенизацию в Python с помощью библиотеки NLTK. Как люди, мы сильно зависим от языка, чтобы общаться друг с другом. Искусственный интеллект также требует, чтобы компьютеры понимали наш язык.

Заставить компьютер понимать и обрабатывать язык входит в Обработка естественного языка (НЛП) . НЛП в широком смысле определяется как автоматическое манипулирование естественным языком, таким как речь и текст, с помощью программного обеспечения.

Токенизация – это обычная задача, выполняемая в рамках НЛП. Токенизация-это процесс разбиения фрагмента текста на более мелкие единицы, называемые токенами. Эти токены из строительного блока НЛП.

Зачем нам нужна токенизация?

Архитектуры глубокого обучения в НЛП, такие как LSTM и RNN, обрабатывают текст в виде токенов.

Запустив токенизацию на корпусе текста, мы можем сформировать словарь. Затем эти маркеры представляются таким образом, который подходит для соответствующей языковой модели.

Это представление называется вложениями слов . Наиболее часто встречающимися моделями встраивания слов являются Skip gram и One-Hot-Encoding .

В этом уроке мы узнаем, как маркировать наш текст.

Давайте напишем код на python, чтобы обозначить абзац текста.

Реализация токенизации в Python с помощью NLTK

Мы будем использовать модуль NLTK для токенизации текста. NLTK-это сокращение от Natural Language ToolKit . Это библиотека, написанная на Python для символьной и статистической обработки естественного языка.

NLTK позволяет очень легко работать с текстовыми данными и обрабатывать их. Давайте начнем с установки NLTK.

1. Установка библиотеки NLTK

Выполните команду pip на консоли, чтобы установить NLTK.

pip install nltk

Для установки компонентов NLTK используйте:

import nltk
nltk.download()

В этом уроке мы рассмотрим два типа токенизации:

Токенизация предложений
Токенизация слов

2. Настройка токенизации в Python

Давайте начнем с импорта необходимых модулей.

from nltk.tokenize import sent_tokenize, word_tokenize

sent_tokenize отвечает за маркировку на основе предложений и word_tokenize отвечает за маркировку на основе слов.

Текст, который мы будем маркировать, таков::

"Hello there! Welcome to this tutorial on tokenizing. After going through this tutorial you will be able to tokenize your text. Tokenizing is an important concept under NLP. Happy learning!"

Сохраните текст в переменной.

text = "Hello there! Welcome to this tutorial on tokenizing. After going through this tutorial you will be able to tokenize your text. Tokenizing is an important concept under NLP. Happy learning!"

3. Токенизация предложений в Python с использованием sent_tokenize()

Для токенизации в соответствии с предложениями используйте:

print(sent_tokenize(text))

Результат, который мы получаем, таков:

['Hello there!', 'Welcome to this tutorial on tokenizing.', 'After going through this tutorial you will be able to tokenize your text.', 'Tokenizing is an important concept under NLP.', 'Happy learning!']

Он возвращает список с каждым элементом списка в виде предложения из текста.

4. Токенизация слов в Python с помощью word_tokenize()

Для токенизации в соответствии со словами, которые мы используем:

print(word_tokenize(text))

Результат, который мы получаем, таков:

['Hello', 'there', '!', 'Welcome', 'to', 'this', 'tutorial', 'on', 'tokenizing', '.', 'After', 'going', 'through', 'this', 'tutorial', 'you', 'will', 'be', 'able', 'to', 'tokenize', 'your', 'text', '.', 'Tokenizing', 'is', 'an', 'important', 'conceot', 'under', 'NLP', '.', 'Happy', 'learning', '!']

Он возвращает список с каждым элементом списка в виде слова из текста. Теперь они могут использоваться в качестве токенов в языковой модели для обучения.

Полный код Python для токенизации с использованием NLTK

Полный код выглядит следующим образом:

from nltk.tokenize import sent_tokenize, word_tokenize

text = "Hello there! Welcome to this tutorial on tokenizing. After going through this tutorial you will be able to tokenize your text. Tokenizing is an important concept under NLP. Happy learning!"

print(sent_tokenize(text))
print(word_tokenize(text))

Вывод

Этот учебник был посвящен маркировке текста на python. Мы также рассмотрели необходимость токенизации и ее реализации в Python с использованием NLTK.

После того, как вы маркировали текст, вы также можете определить настроение текста в Python. Взгляните на этот учебник по анализу настроений в Python .