Автор оригинала: Pankaj Kumar.
Как рассчитать сводную статистику в Python?
Чтобы рассчитать сводную статистику в Python, вам нужно использовать .Дописаться () Метод под Пандас Отказ .Describe () Метод Работает как в числовых данных, а также объект данные, такие как строки или временные метки.
Выход для двух будет содержать разные поля. Для числовых данных результат будет включать в себя:
- считать
- иметь в виду
- стандартное отклонение
- минимально
- максимум
- 25 процентилей
- 50 процентилей
- 75 процентов
Для данных объектов Результатом будет включать в себя:
- считать
- уникальный
- вершина
- парус
Рассчитайте сводную статистику в Python с использованием метода описывания ()
В этом руководстве мы увидим, как использовать метод .describe () с числовыми и объектами.
Мы также увидим, как проанализировать большие серии набора данных и временем времени с использованием метода .describe.
Давайте начнем.
1. Сводная статистика для числовых данных
Давайте определим список с номерами от 1 до 6 и попробуйте получить сводную статистику для списка.
Мы начнем, импортируя панды.
import pandas as pd
Теперь мы можем определить серию как:
s = pd.Series([1, 2, 3, 4, 5, 6])
Чтобы отобразить сводную статистику:
s.describe()
Полный код и выход следующие:
import pandas as pd s = pd.Series([1, 2, 3, 4, 5, 6]) s.describe()
Выход:
count 6.000000 mean 3.500000 std 1.870829 min 1.000000 25% 2.250000 50% 3.500000 75% 4.750000 max 6.000000 dtype: float64
Давайте понять, что означает каждый из ценностей.
считать | Общее количество записей |
иметь в виду | В среднем всех записей |
std. | стандартное отклонение |
мин | минимальное значение |
25% | 25 процентилей |
50% | 50 процентилей (медиана) |
75% | 75 процентилей |
Максимум | Максимальное значение |
2. Сводка статистики для данных объекта Python
Давайте определим серию как набор символов и используйте метод .describe на нем, чтобы рассчитать сводную статистику.
Мы можем определить серию как:
s = pd.Series(['a', 'a', 'b', 'c'])
Чтобы получить сводную статистику:
s.describe()
Полный код и выход следующие:
import pandas s = pd.Series(['a', 'a', 'b', 'c']) s.describe()
Выход:
count 4 unique 3 top a freq 2 dtype: object
Давайте понять, что каждое из следующих средств:
считать | Общее количество записей |
уникальный | Общее количество уникальных записей |
вершина | Самая частая запись |
парус | Частота наиболее частого входа |
3. Сводная статистика большого набора данных
Вы можете использовать Pandas, чтобы получить сводную статистику из большого набора данных. Вам просто нужно импортировать набор данных в кадр данных PandaS, а затем использовать метод .describe.
В этом руководстве мы будем использовать Калифорнийское жилье DataSet в качестве образца набора данных.
Давайте начнем, импортируя набор данных CSV, а затем вызовите метод .describe на нем.
import pandas as pd housing = pd.read_csv("/content/sample_data/california_housing.csv") housing.describe()
Выход:
Мы видим, что результат содержит сводную статистику для всех столбцов в нашем наборе данных.
4. Сводная статистика для серии Timestamp
Вы можете использовать .describe, чтобы получить сводную статистику для серии Timestamp. Давайте начнем с определения серии Timestamp.
import datetime import numpy as np s = pd.Series([np.datetime64("2000-01-01"),np.datetime64("2010-01-01"),np.datetime64("2010-01-01"),np.datetime64("2002-05-08")])
Теперь вы можете позвонить. OdeCribe на этой серии Timestamp.
s.describe()
Полный код и выход следующие:
import datetime import numpy as np s = pd.Series([np.datetime64("2000-01-01"),np.datetime64("2010-01-01"),np.datetime64("2010-01-01"),np.datetime64("2002-05-08")]) s.describe()
Выход:
count 4 unique 3 top 2010-01-01 00:00:00 freq 2 first 2000-01-01 00:00:00 last 2010-01-01 00:00:00 dtype: object
Вы также можете проинструктировать. Отписаться о лечении DateTime как числовая Отказ Это отобразит результат способом, аналогичным количеству цифровых данных. Вы можете получить средний, средний, 25 процентилей и 75 процентилей в формате DateTime.
Это можно сделать с использованием:
s.describe(datetime_is_numeric=True)
Вывод выглядит следующим образом:
count 4 mean 2005-08-03 00:00:00 min 2000-01-01 00:00:00 25% 2001-10-05 12:00:00 50% 2006-03-05 12:00:00 75% 2010-01-01 00:00:00 max 2010-01-01 00:00:00
Вы можете видеть, что результат содержит средний, средний, 25-й процентильный и 75-й процентиль в формате DateTime.
Заключение
В этом руководстве было о вычислении сводки статистики в Python. Мы рассмотрели числовые данные, данные объекта, большие наборы набора данных и серии Timestamp, чтобы рассчитать сводную статистику.