Рубрики
Без рубрики

Как рассчитать сводную статистику в Python?

Чтобы рассчитать сводную статистику в Python, вам нужно использовать метод .describe () под пандами. Метод .DESCRIBE () работает как в числовых данных, а также

Автор оригинала: Pankaj Kumar.

Как рассчитать сводную статистику в Python?

Чтобы рассчитать сводную статистику в Python, вам нужно использовать .Дописаться () Метод под Пандас Отказ .Describe () Метод Работает как в числовых данных, а также объект данные, такие как строки или временные метки.

Выход для двух будет содержать разные поля. Для числовых данных результат будет включать в себя:

  • считать
  • иметь в виду
  • стандартное отклонение
  • минимально
  • максимум
  • 25 процентилей
  • 50 процентилей
  • 75 процентов

Для данных объектов Результатом будет включать в себя:

  • считать
  • уникальный
  • вершина
  • парус

Рассчитайте сводную статистику в Python с использованием метода описывания ()

В этом руководстве мы увидим, как использовать метод .describe () с числовыми и объектами.

Мы также увидим, как проанализировать большие серии набора данных и временем времени с использованием метода .describe.

Давайте начнем.

1. Сводная статистика для числовых данных

Давайте определим список с номерами от 1 до 6 и попробуйте получить сводную статистику для списка.

Мы начнем, импортируя панды.

import pandas as pd

Теперь мы можем определить серию как:

s = pd.Series([1, 2, 3, 4, 5, 6])

Чтобы отобразить сводную статистику:

s.describe()

Полный код и выход следующие:

import pandas as pd
s = pd.Series([1, 2, 3, 4, 5, 6])
s.describe()

Выход:

count    6.000000
mean     3.500000
std      1.870829
min      1.000000
25%      2.250000
50%      3.500000
75%      4.750000
max      6.000000
dtype: float64

Давайте понять, что означает каждый из ценностей.

считать Общее количество записей
иметь в виду В среднем всех записей
std. стандартное отклонение
мин минимальное значение
25% 25 процентилей
50% 50 процентилей (медиана)
75% 75 процентилей
Максимум Максимальное значение

2. Сводка статистики для данных объекта Python

Давайте определим серию как набор символов и используйте метод .describe на нем, чтобы рассчитать сводную статистику.

Мы можем определить серию как:

s = pd.Series(['a', 'a', 'b', 'c'])

Чтобы получить сводную статистику:

s.describe()

Полный код и выход следующие:

import pandas
s = pd.Series(['a', 'a', 'b', 'c'])
s.describe()

Выход:

count     4
unique    3
top       a
freq      2
dtype: object

Давайте понять, что каждое из следующих средств:

считать Общее количество записей
уникальный Общее количество уникальных записей
вершина Самая частая запись
парус Частота наиболее частого входа

3. Сводная статистика большого набора данных

Вы можете использовать Pandas, чтобы получить сводную статистику из большого набора данных. Вам просто нужно импортировать набор данных в кадр данных PandaS, а затем использовать метод .describe.

В этом руководстве мы будем использовать Калифорнийское жилье DataSet в качестве образца набора данных.

Давайте начнем, импортируя набор данных CSV, а затем вызовите метод .describe на нем.

import pandas as pd
housing = pd.read_csv("/content/sample_data/california_housing.csv")
housing.describe()

Выход:

Описывать

Мы видим, что результат содержит сводную статистику для всех столбцов в нашем наборе данных.

4. Сводная статистика для серии Timestamp

Вы можете использовать .describe, чтобы получить сводную статистику для серии Timestamp. Давайте начнем с определения серии Timestamp.

import datetime
import numpy as np
 s = pd.Series([np.datetime64("2000-01-01"),np.datetime64("2010-01-01"),np.datetime64("2010-01-01"),np.datetime64("2002-05-08")])

Теперь вы можете позвонить. OdeCribe на этой серии Timestamp.

 s.describe()

Полный код и выход следующие:

import datetime
import numpy as np
 s = pd.Series([np.datetime64("2000-01-01"),np.datetime64("2010-01-01"),np.datetime64("2010-01-01"),np.datetime64("2002-05-08")])
s.describe()

Выход:

count                       4
unique                      3
top       2010-01-01 00:00:00
freq                        2
first     2000-01-01 00:00:00
last      2010-01-01 00:00:00
dtype: object

Вы также можете проинструктировать. Отписаться о лечении DateTime как числовая Отказ Это отобразит результат способом, аналогичным количеству цифровых данных. Вы можете получить средний, средний, 25 процентилей и 75 процентилей в формате DateTime.

Это можно сделать с использованием:

s.describe(datetime_is_numeric=True)

Вывод выглядит следующим образом:

count                      4
mean     2005-08-03 00:00:00
min      2000-01-01 00:00:00
25%      2001-10-05 12:00:00
50%      2006-03-05 12:00:00
75%      2010-01-01 00:00:00
max      2010-01-01 00:00:00

Вы можете видеть, что результат содержит средний, средний, 25-й процентильный и 75-й процентиль в формате DateTime.

Заключение

В этом руководстве было о вычислении сводки статистики в Python. Мы рассмотрели числовые данные, данные объекта, большие наборы набора данных и серии Timestamp, чтобы рассчитать сводную статистику.