Автор оригинала: Pankaj Kumar.
Создание фиктивных переменных в Python
Здравствуйте, читатели! В этой статье мы будем понимать Создание фиктивных переменных в питоне.
Итак, давайте начнем!
Во-первых, что такое фиктивная переменная?
Позвольте мне попробовать представить вас с уникальной, но важной концепцией моделирования данных – фиктивные переменные через сценарий ниже.
Рассмотрим набор данных, который является комбинацией непрерывных, а также категорических данных. Как только мы читаем работу «категорично», то, что впервые приходит на наш разум, это категории в данных или наличие групп.
Обычно это происходит, что переменные представляют собой яркие/различные типы категорий. Обработка огромного количества групп данных и кормления его модели становится утомительной и сложной задачей, так как размер набора данных увеличивается, и вскоре неоднозначность начинает увеличиваться.
Это когда концепция фиктивных переменных входит в картину.
Фиктивная переменная – это числовая переменная, представляющая собой подкатегории или подгруппы категорических переменных набора данных.
В двух словах, фиктивная переменная позволяет нам различать различные подгруппы данных, и в зависимости от того, что также позволяет использовать данные для регрессионного анализа.
Посмотрите на нижеприведенный пример!
Рассмотрим набор данных, который содержит 10-15 переменных данных среди которых он содержит категорию « » Мужчина ‘и’ Женский ‘.
Задача – это понимать, как правило, какой пол выходит и выбирает «розовый» как цвет своих мобильных чехлов. Теперь в этом случае мы можем использовать фиктивные переменные и назначать 0 как мужчины и 1 как женскую. Это будет интактировать помощь модели кормления, оказывают лучшее понимание и оформление на кормление данных.
Давайте создадим фиктивную переменную в Python сейчас!
Давайте теперь начнем с создания фиктивной переменной. Мы использовали Прогноз подсчета велосипедов Проблема для анализа и создания фиктивных переменных.
Итак, давайте начнем!
1. Загрузите набор данных
Сначала нам нужно загрузить набор данных в рабочую среду, как показано ниже:
import pandas BIKE = pandas.read_csv("Bike.csv")
Оригинальный набор данных:
2. Создайте копию оригинального набора данных для работы.
Чтобы убедиться, что оригинальный набор данных остается неизменным, мы создаем копию оригинального набора данных для работы и выполнения операции создания манекенов.
Мы использовали pandas.dataframe.copy ()
функция для того же.
bike = BIKE.copy()
3. Храните все категорические переменные в списке
Давайте теперь сохраним все категорические переменные из набора данных в список для работы!
categorical_col_updated = ['season','yr','mnth','weathersit','holiday']
4. Используйте метод Get_Dummies () для создания пустых переменных
Модуль пандас дает нам dataframe.get_dammies ()
Функция для создания манекенов категорических данных.
bike = pandas.get_dummies(bike, columns = categorical_col_updated) print(bike.columns)
Мы пропустили набор данных, а категорические значения столбца к функции для создания манекенов.
Выход:
Как видно ниже, для каждой категории создается манекена или отдельная колонна для каждой категории.
Вроде, столбец «месяц» имеет все 12 месяцев как категории.
Таким образом, каждый один месяц рассматривается как подгруппировка, а функция Get_Dummies () создала отдельный столбец для каждого столбца.
Index(['temp', 'hum', 'windspeed', 'cnt', 'season_1', 'season_2', 'season_3', 'season_4', 'yr_0', 'yr_1', 'mnth_1', 'mnth_2', 'mnth_3', 'mnth_4', 'mnth_5', 'mnth_6', 'mnth_7', 'mnth_8', 'mnth_9', 'mnth_10', 'mnth_11', 'mnth_12', 'weathersit_1', 'weathersit_2', 'weathersit_3', 'holiday_0', 'holiday_1'], dtype='object')
Вы можете найти результирующий набор данных по функции get_dummies () здесь .
Заключение
По этому, мы подошли к концу этой темы. Не стесняйтесь комментировать ниже, если вы столкнетесь с любым вопросом.
Для большего количества таких постов, связанных с Python, оставаться настроенными, а до тех пор, как потом, счастливое обучение !! 🙂.