Рубрики
Без рубрики

Regex занимал 5 дней, чтобы бежать. Поэтому я построил инструмент, который сделал это за 15 минут.

Regex довольно медленно, когда количество условий для поиска / замены в тысячах. Помечено с открытым исходным кодом, Python, NLP, поиском информации.

Рубрики
Без рубрики

Как обрабатывать текстовые данные с использованием TF-IDF в Python

Автор оригинала: FreeCodeCapm Team. Mayank Tripathi Компьютеры хороши с цифрами, но не так много с текстовыми данными. Одной из наиболее широко используемых методов для обработки текстовых данных является TF-IDF. В этой статье мы узнаем, как это работает и каковы его особенности. Из нашей интуиции мы считаем, что слова, которые чаще, кажутся чаще, должны иметь больший […]

Рубрики
Без рубрики

Regex занимал 5 дней, чтобы бежать. Поэтому я построил инструмент, который сделал это через 15 минут.

Автор оригинала: FreeCodeCapm Team. Викаш Сингх Когда разработчики работают с текстом, им часто нужно сначала очистить его. Иногда это заменив ключевые слова. Как замена «JavaScript» с «JavaScript». В других случаях мы просто хотим выяснить, был ли упомянутый «JavaScript» в документе. Задачи для очистки данных, такие как это стандартные для большинства научных проектов данных, касающихся текста. […]

Рубрики
Без рубрики

Как удалить стоп слова в Python с помощью NLTK?

В этом руководстве мы узнаем, как удалить стоп-слов из кусочка текста в Python. Удаление стоп-слов из текста поставляется при предварительной обработке данных

Рубрики
Без рубрики

Python для НЛП: Создание модели мешка слов с нуля

Автор оригинала: Usman Malik. Python для НЛП: Создание модели мешка слов с нуля Это 13-я статья в моей серии статей по Python для НЛП. В предыдущей статье мы видели , как создать простой чат-бот на основе правил, который использует косинусное сходство между векторами TF-IDF слов в корпусе и пользовательским вводом для генерации ответа. Модель TF-IDF […]