Python Библиотека Pandas поддерживает тип данных, называемую категорию. При работе с PandaS DataFrame использование категории поможет во многих отношениях. Давайте посмотрим о категории DataType.
Что такое тип данных в пандах?
- Категория – это тип данных, который можно использовать, когда у нас есть фиксированное количество строковых значений, таких как
- Месяцы (январь, февраль)
- Названия стран (Индия, Сингапур)
- Размер (маленький, средний, большой)
- Простым способом используют последовательность целочисленных значений для строк (Jan – 1, Feb – 2 и т. Д.)
- Категории аналогичны передачам данных на других языках программирования, такие как C/C ++, Java.
Преимущества использования категории:
- Сохранение много памяти, уменьшая размер
- Увеличение скорости обработки
Как использовать категорию в PandaS DataFrame:
– Читая файл CSV:
Мы можем конвертировать столбец из объекта в категорию во время чтения файла, как указано ниже
filename = "~/Downloads/US_Accidents_Dec20.csv" # Converting into category data type while reading CSV file us_accidents_dec20_cat = pd.read_csv(filename, dtype = {'State' : 'category', 'City' : 'category'})
– Конвертация столбца в тип категории:
Мы можем преобразовать колонку на лету, как ниже
# Loading csv file into data frame filename = "~/Downloads/US_Accidents_Dec20.csv" us_accidents_dec20_cat = pd.read_csv(filename,) # Normal column access us_accidents_dec20['State'] # Converting to category data type us_accidents_dec20['State'].astype('category')
Сравнение памяти между объектом vs Типы данных категории:
- Нормальная колонна объекта:
us_accidents_dec20['State'].memory_usage(deep=True) / 1e6
Результат: 249.720047
- Колонка категории:
us_accidents_dec20['State'].astype('category').memory_usage(deep=True) / 1e6
Результат: 4.23684.
Мы можем четко соблюдать пространство для хранения от 249 до 4, что очень огромное значение.
Преобразование в категории Тип данных, безусловно, поможет улучшить скорость и пространство обработки с большим набором данных.
Счастливое обучение !!
P.S: Данные аварии в декабре 2020 года из США вы можете получить эти данные из Kaggle.
Оригинал: “https://dev.to/chanduthedev/category-type-in-pandas-3h73”