Рубрики
Без рубрики

Примеры функций Pandas Cut ()

1. Функция Pandas Cut () Функция Pandas Cut () используется для разделения элементов массива в отдельные бункеры. Функция CUT () работает только на одномерном

Автор оригинала: Pankaj Kumar.

1. Функция Pandas Cut ()

Функция Pandas Cut () используется для разделения элементов массива в отдельные контейнеры. Функция CUT () работает только на одномерных объектах, подобных массивам.

2. Использование функции Pandas Cut ()

Функция CUT () полезна, когда у нас есть большое количество скалярных данных, и мы хотим выполнить на нем какой-то статистический анализ.

Например, скажем, у нас есть массив чисел от 1 до 20. Мы хотим разделить их на две бункеры (1, 10] и (10, 20] и добавлять этикетки, такие как «минимумы» и «высокие». Мы Может легко выполнить это, используя функцию Pandas Cut ().

Кроме того, мы можем выполнять функции на элементах специфических элементов Bin и этикетки.

3. Синтаксис функции Pandas Cut ()

Синтаксис функции CUT ():

cut(
    x,
    bins,
    right=True,
    labels=None,
    retbins=False,
    precision=3,
    include_lowest=False,
    duplicates="raise",
)
  • х это входной массив должен быть вписан. Это должно быть одномерным.
  • BINS Определяет края бин для сегментации.
  • правильно Указывает, включает ли главный край или нет, значение по умолчанию верно.
  • этикетки используется для уточнения меток для возврата BINS.
  • ретбинс Указывает, нужно ли возвращать мусорные баки или нет.
  • Точность Определяет точность, в которой хранить и отображать этикетки BINS.
  • icnly_lowest Указывает, должен ли первый интервал оставаться в включении или нет.
  • Дубликаты СПЕЦИФИФИФИФИФИФИФИФИФИФИФИФИФИКУ, ЧТО ДЛЯ ДРУГИМИ, Если бы края бункеров не являются уникальными, поднимают ли ValueError или Drop Noniques.

4. Примеры функций Pandas Cut ()

Давайте посмотрим на некоторые примеры функции Pandas Cut (). Я буду использовать Numpy Чтобы генерировать случайные числа для заполнения Dataframe объект.

4.1) Номера сегмента в Bins

import pandas as pd
import numpy as np

df_nums = pd.DataFrame({'num': np.random.randint(1, 100, 10)})
print(df_nums)

df_nums['num_bins'] = pd.cut(x=df_nums['num'], bins=[1, 25, 50, 75, 100])
print(df_nums)

print(df_nums['num_bins'].unique())

Выход:

   num
0   80
1   40
2   25
3    9
4   66
5   13
6   63
7   33
8   20
9   60

   num   num_bins
0   80  (75, 100]
1   40   (25, 50]
2   25    (1, 25]
3    9    (1, 25]
4   66   (50, 75]
5   13    (1, 25]
6   63   (50, 75]
7   33   (25, 50]
8   20    (1, 25]
9   60   (50, 75]

[(75, 100], (25, 50], (1, 25], (50, 75]]
Categories (4, interval[int64]): [(1, 25] < (25, 50] < (50, 75] < (75, 100]]

Обратите внимание, что 25 является частью корзины (1, 25]. Это потому, что крайне правый край включен по умолчанию. Если вы не хотите, чтобы тогда пропустите Rover = False Параметр на функцию CUT ().

4.2) Добавление меток в мусорные бины

import pandas as pd
import numpy as np

df_nums = pd.DataFrame({'num': np.random.randint(1, 20, 10)})
print(df_nums)

df_nums['nums_labels'] = pd.cut(x=df_nums['num'], bins=[1, 10, 20], labels=['Lows', 'Highs'], right=False)

print(df_nums)

print(df_nums['nums_labels'].unique())

Так как мы хотим 10, чтобы быть частью максимума, мы указываем право = ложь в вызове функции CUT ().

Выход:

   num
0    5
1   16
2    6
3   13
4    2
5   10
6   18
7   10
8    2
9   18

   num nums_labels
0    5        Lows
1   16       Highs
2    6        Lows
3   13       Highs
4    2        Lows
5   10       Highs
6   18       Highs
7   10       Highs
8    2        Lows
9   18       Highs

[Lows, Highs]
Categories (2, object): [Lows < Highs]

5. Ссылки