Автор оригинала: Python Examples.
Python – Найти уникальные слова в текстовом файле
Нахождение уникальных слов в текстовом файле требует очистки текста, нахожу слова, а затем нахождение уникального.
В этом руководстве мы узнаем, как найти уникальные слова в текстовом файле.
Шаги, чтобы найти уникальные слова
Чтобы найти уникальные слова в текстовом файле, выполните следующие действия.
- Читайте текстовый файл в режиме чтения.
- Преобразовать текст в нижний регистр или верхний регистр. Мы не хотим, чтобы «Apple» отличаться от «Apple».
- Разделить содержимое файла в список слов.
- Очистите слова, которые заражены знаками препинания. Что-то вроде отчитывания слов от полных остановок, запятых и т. Д.
- Кроме того, удалите ApoStrophe-S ‘s Отказ
- Вы также можете добавить больше шагов очистки текста здесь.
- Теперь найдите уникальные слова в списке, используя Python для оператора членства на петле и Python.
- После нахождения уникальных слов сортируйте их для презентации.
В текстовой очистке вы также можете удалить глаголы помогали и т. Д.
Пример 1. Найти уникальные слова в текстовом файле
Теперь мы поставим все вышеупомянутые шаги в работу с использованием программы Python.
Подумайте, что мы принимаем следующий текстовый файл.
Apple is a very big company. An apple a day keeps doctor away. A big fat cat came across the road beside doctor's office. The doctor owns apple device.
Python Program
text_file = open('data.txt', 'r') text = text_file.read() #cleaning text = text.lower() words = text.split() words = [word.strip('.,!;()[]') for word in words] words = [word.replace("'s", '') for word in words] #finding unique unique = [] for word in words: if word not in unique: unique.append(word) #sort unique.sort() #print print(unique)
Выход
['a', 'across', 'an', 'apple', 'away', 'beside', 'big', 'came', 'cat', 'company', 'day', 'device', 'doctor', 'fat', 'is', 'keeps', 'office', 'owns', 'road', 'the', 'very']
Перевод шагов в код Python
Ниже приведен список концепций Python, который мы использовали в вышеуказанной программе, чтобы найти уникальные слова.
- Откройте () функцию, чтобы получить ссылку на объект файла.
- File.read () Метод для чтения содержимого файла.
- STR.Lower () Метод преобразования текста в нижний регистр.
- STR.SPLIT () Метод разделения текста в слова, разделенные белыми пространствами, такие как одно пространство, новая линия, вкладка и т. Д.
- STR.STRIP () Метод для раскрытия знаков препинания от краев слов.
- STR.replace () Метод заменить
's
Ничего, в конце слов. - Для цикла, чтобы повторить для каждого слова в списке слов.
- В – членский оператор, чтобы проверить, присутствует ли слово в уникальном.
- list.append () Метод добавления слова в уникальный список.
- list.sort () Метод сортировки уникальных слов в лексикографическом порядке возрастания.
- Печать () Функция для печати уникальных слов списка.
Резюме
В этом руководстве примеров Python мы узнали, как найти уникальные слова в текстовом файле, с помощью примера программы.