Рубрики
Без рубрики

Этикетка, кодировка в Python – быстрое руководство!

Здравствуйте, читатели! В этой статье мы будем сосредоточиться на лейбке, кодирующемся в Python.

Автор оригинала: Pankaj Kumar.

Здравствуйте, читатели! В этой статье мы будем сосредоточиться на Этикетка кодировка в питоне.

В нашей последней статье мы поняли работу и реализацию одной горячей кодировки, в которой кодировка этикетки является начальным этапом процесса.

Сегодня мы посмотрим на один из самых фундаментальных шагов в категорическом кодировке значений данных.

Итак, без какой-либо дальнейшей задержки, давайте начнем!

Что такое метка кодировки в Python?

Перед погружением глубоко в концепцию лейбла, кодируя, давайте понять влияние концепции «этикетки» на набор данных.

А этикетка на самом деле число или строка, представляющая определенный набор объектов. Ярлыки помогают модели лучше понять набор данных и позволяет моделировать более сложные структуры.

Рекомендуемые – Как стандартизировать наборы данных для машинного обучения?

Энкодер этикетки Выполняет преобразование этих меток категорических данных в числовой формат.

Например, если набор данных содержит переменную «гендер» с метками «мужской» и «женскую» и «женскую» и «лейбл» преобразует эти этикетки в формат числа, и результирующий результат будет [0,1].

Таким образом, путем преобразования меток в целочисленный формат, модель обучения машины может иметь лучшее понимание с точки зрения работы набора данных.

Кодировка на этикетке – синтаксис, чтобы узнать!

Python Библиотека Sklearn Предоставляет нам предварительно определенную функцию для выполнения метки, кодирующейся на наборе данных.

Синтаксис:

from sklearn import preprocessing  
object = preprocessing.LabelEncoder() 

Здесь мы создаем объект класса LabelenCoder, а затем используйте объект для нанесения этикетки, кодирующейся на данных.

1. Этикетка, кодирующая с sklearn

Давайте направимся в процесс на этикетке кодировки. Первый шаг к кодированию набора данных – это набор данных.

Итак, мы создадим здесь простой набор данных. Пример: создание набора данных

import pandas as pd 
data = {"Gender":['M','F','F','M','F','F','F'], "NAME":['John','Camili','Rheana','Joseph','Amanti','Alexa','Siri']}
block = pd.DataFrame(data)
print("Original Data frame:\n")
print(block)

Здесь мы создали Словарь «Данные», а затем преобразовали его в DataFrame, используя Pandas.dataframe () функция.

Выход:

Original Data frame:

  Gender    NAME
0      M    John
1      F  Camili
2      F  Rheana
3      M  Joseph
4      F  Amanti
5      F   Alexa
6      F    Siri

Из вышеуказанного набора данных ясно, что имеет метки переменной «Gender», как «M» и «F».

Далее, теперь давайте импортируем LabelenCoder Класс и применяя его на переменной Gender из набора данных.

from sklearn import preprocessing 
label = preprocessing.LabelEncoder() 

block['Gender']= label.fit_transform(block['Gender']) 
print(block['Gender'].unique())

Мы использовали fit_transform () Метод Чтобы применить функциональность кодера этикетки, указанным на объект к переменной данных.

Выход:

[1 0]

Итак, вы видите, данные были преобразованы в целочисленные этикетки [0,1].

print(block)

Выход:

Gender    NAME
0       1    John
1       0  Camili
2       0  Rheana
3       1  Joseph
4       0  Amanti
5       0   Alexa
6       0    Siri

2. Этикетки, кодирующие с использованием кодов категории

Давайте сначала проверьте тип данных переменных нашего набора данных.

block.dtypes

Тип данных :

Gender    object
NAME      object
dtype: object

Теперь преобразуйте и преобразуйте тип данных переменной «Gender» на категория тип.

block['Gender'] = block['Gender'].astype('category')
block.dtypes
Gender    category
NAME        object
dtype: object

Теперь, давайте трансформируем этикетки в целочисленные типы, используя pandas.dataframe.cat.codes функция.

block['Gender'] = block['Gender'].cat.codes
print(block)

Как видно ниже, вариабельная «пол» была закодирована к целочисленным значениям [0,1].

Gender    NAME
0       1    John
1       0  Camili
2       0  Rheana
3       1  Joseph
4       0  Amanti
5       0   Alexa
6       0    Siri

Заключение

По этому, мы подошли к концу этой темы. Не стесняйтесь комментировать ниже, если вы столкнетесь с любым вопросом.

Для более глубокого понимания темы, попробуйте внедрить концепцию концепции лейблакодер на разных данных и переменных. Дайте нам знать свой опыт в разделе комментариев! 🙂.

Для большего количества таких постов, связанных с Python, оставаться настроенными, а до тех пор, как потом, счастливое обучение !! 🙂.

Рекомендации