Всем привет
Надеюсь, у вас все хорошо в этой блокировке. Из названия, может быть, сбивает с толку, какую ноту вы должны помнить, я начал исследовать область данных, то есть ML, DS, DL и т. Д. И на самом деле это довольно круто, когда вы найдете будущее прогноз в отношении вывода вашего кода.
Итак, мы думаем, что все дело в изучении ряда алгоритмов, затем от 2 до 4 библиотек Python для очистки данных, а затем это сделано !!!!!
Так что самое важное, что я собираюсь обсудить здесь, – это основание этой области, то есть «данные»
Количество алгоритмов зафиксировано в три категории
- Наблюдается (вы знаете прошлое отношение (помеченные данные))
- неконтролируется (вам не известно, что вам не известно, вы формируете из них другую группу)
- Подкрепление (вы получаете вознаграждение с успехом и наоборот)
После знакомства с ними, вы сейчас пытаетесь научиться реализовать их в данных, чтобы предсказать будущие результаты. По сути, у нас есть два типа данных:
- структурированные данные
- Неструктурированные данные
Структурированные данные означает отсутствие детали очистки данных (различные термины, такие как визуализация, споры, которые вы слышали). Вы просто импортируете его, а затем train_test_split и подходите к модели.
Теперь давайте грязными рукой неструктурированными данными, потому что это то, что я узнал в эти месяцы, мы всегда столкнемся с неструктурированными данными.
Так что в основном я собираюсь использовать следующие библиотеки для этой цели: Шаг 1:- Импорт библиотек:
- Numpy –
Импорт Numpy как np
(Для предварительной обработки данных) - Панды –
Импорт панд как PD
(для очистки данных) - matplotlib –
Импорт matplotlib.pyplot как plt
(Для визуализации данных) - Seaborn –
Импорт Seaborn As SNS
(Для визуализации данных)
Matplotlib – это библиотека Python, используемая для создания 2D -графиков и графиков с помощью сценариев Python. Но я думаю, что если вы обрабатываете больший набор данных с очень нелинейностью Seaborn, должно быть вашим основным оружием
Шаг 2:- где и как использовать разные участки морских паров:
Тепловая карта | sns.heatmap (данные) | в основном используется для знания общей информации и связи между данными |
Барзатор | sns.barplot (value1, value2) | Когда мы сравниваем между двумя категориями |
Countplot | sns.countplot (значение, данные) | То же, что и Barplot, но используйте, чтобы узнать появление метки |
расстояние | sns.distplot (данные) | используется для получения распространения данных |
коробка | sns.boxplot (данные) | Показывает распределение количественных данных таким образом, чтобы облегчить сравнения между переменными или по разным уровням категориальной переменной |
Теперь, после того, как вы полностью визуализировали предоставленные данные и понимаете связь между различными параметрами, предоставленными вам, вы готовы очистить свои данные.
Тем не менее, мы нашли эти проблемы при обработке неструктурированных данных:
- Категориальные колонны
- нулевые значения (NAN)
- смещенная колонка
- Нет значений (пусто)
выбросы
Начиная с конца, выбросы похожи на кардамон для вашего бирьяни, это те, которые вызовут меньшую точность вашей модели Как решить ??
1) Однофакторный метод:-Этот метод ищет точки данных с экстремальными значениями на одной переменной. 2) Многомерный метод: -Here Мы ищем необычные комбинации на всех переменных 3) Ошибка Minkowski: этот метод уменьшает вклад потенциальных выбросов в процесс обучения
пустые значения, то есть отсутствующие значения Иногда вы увидите, что некоторые данные отсутствуют в некоторых столбцах, но выход зависит от этих данных, поэтому вы должны заполнить это место соответствующим образом с максимальной частотой данных, в результате среднего значения данных
data.fillna (значение)
-Ко, когда вы положили фиксированное значениеdata.fillna (метод \ ffill)
-backward/Forward Fillingdata.fillna (data.mean ())
-средний ценностьТеперь что такое смещенная столбец:- Предположим, что для прогноза у вас есть гендерный столбец в данных, которые необходимы для прогнозирования, но отношение мужского: женское. Модель будет предсказать в соответствии с одним значением.
Традиционный метод, чтобы справиться с нулевым значением – отбросить их
data.dropna ()
, но если это требуется для вашего прогноза вместо того, чтобы сбросить его, попытайтесь заполнить это место, заменив другим значением, как указано в случае значений.Последнее, но не менее важное, как справиться с категориальными столбцами
а) Создание манекенов: Легкий в использовании и быстрый способ обработки категориальных значений столбцов. (PS: не полезен для многих категорий)
Pd.get_dummies (данные)
б) Когда категориальные переменные являются порядковыми (помечены), самый простой подход – заменить каждую метку (не полезно для номинального)
data.replace (Man, 0, inplace = true)
Data.replace (женщина, 1, inplace = true)
C) Одно горячее кодирование:-Примечаемое для категорий меньшего числа, т. Е. Конвертировать данные в 1 или 0
от sklearn.compose import trolstransformer
Collantransformer ([('encoder', Onehotencoder (), [№ категории])],)
data.array (columntransformer.fit_transform (data) ,. str)
MABLENCODER:- Наиболее полезная часть для преобразования любого количества категорий в разные числовые значения
от Sklearn.preprocessing Import Labelencoder
Labelencoder (). Fit_transform (data)
Это все. Надеюсь, это очень поможет вам в предварительной обработке данных и в ML -семестре, мы называем инженерию функций
Примеры вы можете проверить мою репозицию:- https://github.com/ashishkumarpanda
Просто новичок, прокомментируйте любые другие методы, если я что -то пропустил. Спасибо:) `
Оригинал: “https://dev.to/spectrumcetb/a-note-to-remember-18n2”