Рубрики
Без рубрики

Python Program Program Tokenize Text к словам или предложениям с NLTK

Автор оригинала: Python Examples.

Tokenize Text к словам или предложениям

В обработке естественного языка токенизация является процессом нарушения данного текста в отдельных словах.

Предполагая, что данный документ ввода текста содержит абзацы, он может сломаться до предложений или слов. NLTK предоставляет токенизацию на двух уровнях: уровень слов и уровень предложения.

Чтобы токеризировать данный текст словами с NLTK, вы можете использовать функцию Word_tokedize (). И к токенизации данного текста в предложения вы можете использовать функцию sent_tokedize ().

Синтаксис – word_tokenize () & senk_takenize ()

Ниже приведен синтаксис функции word_tokedizeize ().

nltk.word_tokenize(text)

где текст это строка.

Ниже приведен синтаксис функции sent_takeizeize ().

nltk.sent_tokenize(text)

word_tokedize () или sent_tokenize () возвращает список python, содержащий токены.

Необходимость использовать word_tokedize () или sent_tokedize () Функции в вашей программе это то, что вы должны иметь Punkt Пакет скачал. Вы можете скачать его в автономном режиме или программно перед использованием методов токена, используя функцию NLTK.Download ().

В следующих примерах мы будем использовать второй метод с использованием функции NLTK.Download ().

Пример 1: NLTK Word Tokenization – NLTK.WORD_Tokedize ()

В следующем примере мы использовали Word_Takeizeize (), чтобы тонеризировать данный текст в слова.

Python Program

import nltk

# nltk tokenizer requires punkt package
# download if not downloaded or not up-to-date
nltk.download('punkt')

# input text
sentence = """Today morning, Arthur felt very good."""

# tokene into words
tokens = nltk.word_tokenize(sentence)

# print tokens
print(tokens)

Выход

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\PE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
['Today', 'morning', ',', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

Если вы уже загрузили все пакеты NLTK, вы не можете использовать nltk.download ('punkt') Отказ Если вы снова запустите программу, вы увидите следующие комментарии NLTK_DATA.

Выход

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\PE\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
['Today', 'morning', ',', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

Второй раз, пакет не загружается, если только это не устарело.

Пример 2: Приговор NLTK Tokenization – NLTK.WORD_Tokedize ()

В следующем примере мы использовали sent_tokedize (), чтобы токеризировать приведенный текст в предложения.

Python Program

import nltk

# nltk tokenizer requires punkt package
# download if not downloaded or not up-to-date
nltk.download('punkt')

# input text
sentence = """Today morning, Arthur felt very good.

The time is ticking.
"""

# tokene into words
tokens = nltk.sent_tokenize(sentence)

# print tokens
print(tokens)

Выход

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\PE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
['Today', 'morning', ',', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

Резюме

В этом учете NLTK учебника примеров Python мы узнали, как токизировать текст в предложения и как токеризировать предложение словами.