Рубрики
Без рубрики

Тип категории в Пандас

Библиотека Python Pandas поддерживает тип данных, называемую категорию. При работе с PandaS DataFrame, используя … Tagged с Pandas, DataFrame, Python.

Python Библиотека Pandas поддерживает тип данных, называемую категорию. При работе с PandaS DataFrame использование категории поможет во многих отношениях. Давайте посмотрим о категории DataType.

Что такое тип данных в пандах?

  • Категория – это тип данных, который можно использовать, когда у нас есть фиксированное количество строковых значений, таких как
    • Месяцы (январь, февраль)
    • Названия стран (Индия, Сингапур)
    • Размер (маленький, средний, большой)
  • Простым способом используют последовательность целочисленных значений для строк (Jan – 1, Feb – 2 и т. Д.)
  • Категории аналогичны передачам данных на других языках программирования, такие как C/C ++, Java.

Преимущества использования категории:

  1. Сохранение много памяти, уменьшая размер
  2. Увеличение скорости обработки

Как использовать категорию в PandaS DataFrame:

– Читая файл CSV:

Мы можем конвертировать столбец из объекта в категорию во время чтения файла, как указано ниже

filename = "~/Downloads/US_Accidents_Dec20.csv"
# Converting into category data type while reading CSV file
us_accidents_dec20_cat = pd.read_csv(filename, dtype = {'State' : 'category', 'City' : 'category'})
– Конвертация столбца в тип категории:

Мы можем преобразовать колонку на лету, как ниже

# Loading csv file into data frame
filename = "~/Downloads/US_Accidents_Dec20.csv"
us_accidents_dec20_cat = pd.read_csv(filename,)

# Normal column access
us_accidents_dec20['State']

# Converting to category data type
us_accidents_dec20['State'].astype('category')

Сравнение памяти между объектом vs Типы данных категории:

  • Нормальная колонна объекта:
us_accidents_dec20['State'].memory_usage(deep=True) / 1e6

Результат: 249.720047

  • Колонка категории:
us_accidents_dec20['State'].astype('category').memory_usage(deep=True) / 1e6

Результат: 4.23684.

Мы можем четко соблюдать пространство для хранения от 249 до 4, что очень огромное значение.

Преобразование в категории Тип данных, безусловно, поможет улучшить скорость и пространство обработки с большим набором данных.

Счастливое обучение !!

P.S: Данные аварии в декабре 2020 года из США вы можете получить эти данные из Kaggle.

Оригинал: “https://dev.to/chanduthedev/category-type-in-pandas-3h73”