Автор оригинала: Python Examples.
Tokenize Text к словам или предложениям
В обработке естественного языка токенизация является процессом нарушения данного текста в отдельных словах.
Предполагая, что данный документ ввода текста содержит абзацы, он может сломаться до предложений или слов. NLTK предоставляет токенизацию на двух уровнях: уровень слов и уровень предложения.
Чтобы токеризировать данный текст словами с NLTK, вы можете использовать функцию Word_tokedize (). И к токенизации данного текста в предложения вы можете использовать функцию sent_tokedize ().
Синтаксис – word_tokenize () & senk_takenize ()
Ниже приведен синтаксис функции word_tokedizeize ().
nltk.word_tokenize(text)
где текст это строка.
Ниже приведен синтаксис функции sent_takeizeize ().
nltk.sent_tokenize(text)
word_tokedize () или sent_tokenize () возвращает список python, содержащий токены.
Необходимость использовать word_tokedize () или sent_tokedize () Функции в вашей программе это то, что вы должны иметь Punkt Пакет скачал. Вы можете скачать его в автономном режиме или программно перед использованием методов токена, используя функцию NLTK.Download ().
В следующих примерах мы будем использовать второй метод с использованием функции NLTK.Download ().
Пример 1: NLTK Word Tokenization – NLTK.WORD_Tokedize ()
В следующем примере мы использовали Word_Takeizeize (), чтобы тонеризировать данный текст в слова.
Python Program
import nltk
# nltk tokenizer requires punkt package
# download if not downloaded or not up-to-date
nltk.download('punkt')
# input text
sentence = """Today morning, Arthur felt very good."""
# tokene into words
tokens = nltk.word_tokenize(sentence)
# print tokens
print(tokens)Выход
[nltk_data] Downloading package punkt to [nltk_data] C:\Users\PE\AppData\Roaming\nltk_data... [nltk_data] Unzipping tokenizers\punkt.zip. ['Today', 'morning', ',', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
Если вы уже загрузили все пакеты NLTK, вы не можете использовать nltk.download ('punkt') Отказ Если вы снова запустите программу, вы увидите следующие комментарии NLTK_DATA.
Выход
[nltk_data] Downloading package punkt to [nltk_data] C:\Users\PE\AppData\Roaming\nltk_data... [nltk_data] Package punkt is already up-to-date! ['Today', 'morning', ',', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
Второй раз, пакет не загружается, если только это не устарело.
Пример 2: Приговор NLTK Tokenization – NLTK.WORD_Tokedize ()
В следующем примере мы использовали sent_tokedize (), чтобы токеризировать приведенный текст в предложения.
Python Program
import nltk
# nltk tokenizer requires punkt package
# download if not downloaded or not up-to-date
nltk.download('punkt')
# input text
sentence = """Today morning, Arthur felt very good.
The time is ticking.
"""
# tokene into words
tokens = nltk.sent_tokenize(sentence)
# print tokens
print(tokens)Выход
[nltk_data] Downloading package punkt to [nltk_data] C:\Users\PE\AppData\Roaming\nltk_data... [nltk_data] Unzipping tokenizers\punkt.zip. ['Today', 'morning', ',', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
Резюме
В этом учете NLTK учебника примеров Python мы узнали, как токизировать текст в предложения и как токеризировать предложение словами.