Рубрики
Без рубрики

Python – Найти уникальные слова в текстовом файле

Автор оригинала: Python Examples.

Python – Найти уникальные слова в текстовом файле

Нахождение уникальных слов в текстовом файле требует очистки текста, нахожу слова, а затем нахождение уникального.

В этом руководстве мы узнаем, как найти уникальные слова в текстовом файле.

Шаги, чтобы найти уникальные слова

Чтобы найти уникальные слова в текстовом файле, выполните следующие действия.

  1. Читайте текстовый файл в режиме чтения.
  2. Преобразовать текст в нижний регистр или верхний регистр. Мы не хотим, чтобы «Apple» отличаться от «Apple».
  3. Разделить содержимое файла в список слов.
  4. Очистите слова, которые заражены знаками препинания. Что-то вроде отчитывания слов от полных остановок, запятых и т. Д.
  5. Кроме того, удалите ApoStrophe-S ‘s Отказ
  6. Вы также можете добавить больше шагов очистки текста здесь.
  7. Теперь найдите уникальные слова в списке, используя Python для оператора членства на петле и Python.
  8. После нахождения уникальных слов сортируйте их для презентации.

В текстовой очистке вы также можете удалить глаголы помогали и т. Д.

Пример 1. Найти уникальные слова в текстовом файле

Теперь мы поставим все вышеупомянутые шаги в работу с использованием программы Python.

Подумайте, что мы принимаем следующий текстовый файл.

Apple is a very big company. An apple a day keeps doctor away. A big fat cat came across the road beside doctor's office.
The doctor owns apple device.

Python Program

text_file = open('data.txt', 'r')
text = text_file.read()

#cleaning
text = text.lower()
words = text.split()
words = [word.strip('.,!;()[]') for word in words]
words = [word.replace("'s", '') for word in words]

#finding unique
unique = []
for word in words:
    if word not in unique:
        unique.append(word)

#sort
unique.sort()

#print
print(unique)

Выход

['a', 'across', 'an', 'apple', 'away', 'beside', 'big', 'came', 'cat', 'company', 'day', 'device', 'doctor', 'fat', 'is', 'keeps', 'office', 'owns', 'road', 'the', 'very']

Перевод шагов в код Python

Ниже приведен список концепций Python, который мы использовали в вышеуказанной программе, чтобы найти уникальные слова.

  • Откройте () функцию, чтобы получить ссылку на объект файла.
  • File.read () Метод для чтения содержимого файла.
  • STR.Lower () Метод преобразования текста в нижний регистр.
  • STR.SPLIT () Метод разделения текста в слова, разделенные белыми пространствами, такие как одно пространство, новая линия, вкладка и т. Д.
  • STR.STRIP () Метод для раскрытия знаков препинания от краев слов.
  • STR.replace () Метод заменить 's Ничего, в конце слов.
  • Для цикла, чтобы повторить для каждого слова в списке слов.
  • В – членский оператор, чтобы проверить, присутствует ли слово в уникальном.
  • list.append () Метод добавления слова в уникальный список.
  • list.sort () Метод сортировки уникальных слов в лексикографическом порядке возрастания.
  • Печать () Функция для печати уникальных слов списка.

Резюме

В этом руководстве примеров Python мы узнали, как найти уникальные слова в текстовом файле, с помощью примера программы.