Автор оригинала: Pankaj Kumar.
2 Простые способы стандартизации данных в Python для машинного обучения
Эй, читатели. В этой статье мы будем сосредоточиться на 2 Важных методика для стандартизации данных в Python Отказ Итак, давайте начнем !!
Почему нам нужно стандартизировать данные в Python?
Перед погружением глубоко в концепцию стандартизации, для нас очень важно знать необходимость в этом.
Итак, вы видите, что наборы данных, которые мы используем для создания модели для определенного оператора проблемы, обычно построены из различных источников. Таким образом, можно предположить, что набор данных содержит переменные/особенности разных масштабов.
Для того, чтобы наше машинное обучение или глубокую модель обучения работать хорошо, данные очень необходимо иметь одинаковую масштаб с точки зрения функции, чтобы избежать смещения в результате.
Таким образом, Функция масштабирования считается важным шагом до моделирования.
Масштабирование функций может быть широко классифицировано на следующих категориях:
- Нормализация
- Стандартизация
Стандартизация используется на значениях данных, которые являются нормально распределен
Отказ Кроме того, применяя стандартизацию, мы склонны вносить среднее значение набора данных, а стандартное отклонение, эквивалентное 1.
То есть путем стандартизации значений мы получаем следующую статистику распределения данных
- иметь в виду
- стандартный
Таким образом, этим набор данных становится самоснабжением и легко анализировать как значит отказывается до 0 И это происходит, чтобы иметь Устройство дисперсии Отказ
Способы стандартизации данных в Python
Давайте сейчас сосредоточимся на различных способах внедрения стандартизации в предстоящем разделе.
1. Использование предварительной обработки. Функция ()
Предварительная обработка. Функция (данные). Может использоваться для стандартизации значений данных к значению, имеющему средне эквивалентное нулю и стандартное отклонение как 1.
Здесь мы загрузили DataSet Iris в окружающую среду, используя линию ниже:
from sklearn.datasets import load_iris
Кроме того, мы сохранили набор данных IRIS к объекту данных, как создано ниже.
from sklearn import preprocessing data = load_iris() # separate the independent and dependent variables X_data = data.data target = data.target # standardization of dependent variables standard = preprocessing.scale(X_data) print(standard)
После сегрегирования зависимого и переменной/целевой переменной мы использовали Предварительная обработка. Функция ()) Функция
в зависимых переменных для стандартизации данных.
Выход:
2. Использование стандартного баланса () функции
Python Библиотека Sklearn
предлагает нам Стандартный класс () Функция
выполнять стандартизацию на набор данных.
Здесь, опять же мы использовали набор данных IRIS.
Кроме того, мы создали объект стандартного баланса (), а затем применил fit_transform () Функция
Чтобы применить стандартизацию на набор данных.
from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler data = load_iris() scale= StandardScaler() # separate the independent and dependent variables X_data = data.data target = data.target # standardization of dependent variables scaled_data = scale.fit_transform(X_data) print(scaled_data)
Выход :
Заключение
По этому, мы подошли к концу этой темы. Не стесняйтесь комментировать ниже, если вы столкнетесь с любым вопросом.
До этого оставайся настроенным и счастливым обучением !! 🙂.