Примечание, чтобы помнить

Всем привет

Надеюсь, у вас все хорошо в этой блокировке. Из названия, может быть, сбивает с толку, какую ноту вы должны помнить, я начал исследовать область данных, то есть ML, DS, DL и т. Д. И на самом деле это довольно круто, когда вы найдете будущее прогноз в отношении вывода вашего кода.

Итак, мы думаем, что все дело в изучении ряда алгоритмов, затем от 2 до 4 библиотек Python для очистки данных, а затем это сделано !!!!!

Так что самое важное, что я собираюсь обсудить здесь, – это основание этой области, то есть «данные»

Количество алгоритмов зафиксировано в три категории

Наблюдается (вы знаете прошлое отношение (помеченные данные))
неконтролируется (вам не известно, что вам не известно, вы формируете из них другую группу)
Подкрепление (вы получаете вознаграждение с успехом и наоборот)

После знакомства с ними, вы сейчас пытаетесь научиться реализовать их в данных, чтобы предсказать будущие результаты. По сути, у нас есть два типа данных:

структурированные данные
Неструктурированные данные

Структурированные данные означает отсутствие детали очистки данных (различные термины, такие как визуализация, споры, которые вы слышали). Вы просто импортируете его, а затем train_test_split и подходите к модели.

Теперь давайте грязными рукой неструктурированными данными, потому что это то, что я узнал в эти месяцы, мы всегда столкнемся с неструктурированными данными.

Так что в основном я собираюсь использовать следующие библиотеки для этой цели: Шаг 1:- Импорт библиотек:

Numpy – Импорт Numpy как np (Для предварительной обработки данных)
Панды – Импорт панд как PD (для очистки данных)
matplotlib – Импорт matplotlib.pyplot как plt (Для визуализации данных)
Seaborn – Импорт Seaborn As SNS (Для визуализации данных)

Matplotlib – это библиотека Python, используемая для создания 2D -графиков и графиков с помощью сценариев Python. Но я думаю, что если вы обрабатываете больший набор данных с очень нелинейностью Seaborn, должно быть вашим основным оружием

Шаг 2:- где и как использовать разные участки морских паров:

Тепловая карта	sns.heatmap (данные)	в основном используется для знания общей информации и связи между данными
Барзатор	sns.barplot (value1, value2)	Когда мы сравниваем между двумя категориями
Countplot	sns.countplot (значение, данные)	То же, что и Barplot, но используйте, чтобы узнать появление метки
расстояние	sns.distplot (данные)	используется для получения распространения данных
коробка	sns.boxplot (данные)	Показывает распределение количественных данных таким образом, чтобы облегчить сравнения между переменными или по разным уровням категориальной переменной

Теперь, после того, как вы полностью визуализировали предоставленные данные и понимаете связь между различными параметрами, предоставленными вам, вы готовы очистить свои данные.

Тем не менее, мы нашли эти проблемы при обработке неструктурированных данных:

Категориальные колонны
нулевые значения (NAN)
смещенная колонка
Нет значений (пусто)
выбросы
Начиная с конца, выбросы похожи на кардамон для вашего бирьяни, это те, которые вызовут меньшую точность вашей модели Как решить ??

1) Однофакторный метод:-Этот метод ищет точки данных с экстремальными значениями на одной переменной. 2) Многомерный метод: -Here Мы ищем необычные комбинации на всех переменных 3) Ошибка Minkowski: этот метод уменьшает вклад потенциальных выбросов в процесс обучения
пустые значения, то есть отсутствующие значения Иногда вы увидите, что некоторые данные отсутствуют в некоторых столбцах, но выход зависит от этих данных, поэтому вы должны заполнить это место соответствующим образом с максимальной частотой данных, в результате среднего значения данных data.fillna (значение) -Ко, когда вы положили фиксированное значение data.fillna (метод \ ffill) -backward/Forward Filling data.fillna (data.mean ()) -средний ценность
Теперь что такое смещенная столбец:- Предположим, что для прогноза у вас есть гендерный столбец в данных, которые необходимы для прогнозирования, но отношение мужского: женское. Модель будет предсказать в соответствии с одним значением.
Традиционный метод, чтобы справиться с нулевым значением – отбросить их data.dropna () , но если это требуется для вашего прогноза вместо того, чтобы сбросить его, попытайтесь заполнить это место, заменив другим значением, как указано в случае значений.
Последнее, но не менее важное, как справиться с категориальными столбцами
а) Создание манекенов: Легкий в использовании и быстрый способ обработки категориальных значений столбцов. (PS: не полезен для многих категорий) Pd.get_dummies (данные)
б) Когда категориальные переменные являются порядковыми (помечены), самый простой подход – заменить каждую метку (не полезно для номинального) data.replace (Man, 0, inplace = true) Data.replace (женщина, 1, inplace = true)
C) Одно горячее кодирование:-Примечаемое для категорий меньшего числа, т. Е. Конвертировать данные в 1 или 0 от sklearn.compose import trolstransformer Collantransformer ([('encoder', Onehotencoder (), [№ категории])],) data.array (columntransformer.fit_transform (data) ,. str)
MABLENCODER:- Наиболее полезная часть для преобразования любого количества категорий в разные числовые значения от Sklearn.preprocessing Import Labelencoder Labelencoder (). Fit_transform (data)

Это все. Надеюсь, это очень поможет вам в предварительной обработке данных и в ML -семестре, мы называем инженерию функций

Примеры вы можете проверить мою репозицию:- https://github.com/ashishkumarpanda

Просто новичок, прокомментируйте любые другие методы, если я что -то пропустил. Спасибо:) `

Оригинал: “https://dev.to/spectrumcetb/a-note-to-remember-18n2”