Автор оригинала: Pankaj Kumar.
Boxplots: Все, что вам нужно знать
Boxplots Используйте квартилы, чтобы показать, как распределен заданные данные. Нахождение распространения наших данных является неотъемлемой частью исследования анализа данных (EDA). Для этого у нас есть некоторые существующие инструменты, такие как Гистограммы и Плотность графиков Отказ
Но Boxplots предлагают некоторые серьезные преимущества за этими двумя.
Boxplots Упакуйте дополнительную информацию в очень маленькой поверхности и могут быть полезны при сравнении двух или более переменных на одном графике.
В этой статье мы узнаем, какие баллоны все о том, что их использование и как реализовать boxplot с помощью python.
Интерпретация бокса
Boxplots отображают распределение данных на основе пяти сводных статистических данных, а именно:
- Первый квартиль (Q1)
- Третий квартиль (Q3)
- минимально
- максимум
- посредственность
Он фокусируется на диапазоне значений в распределении.
1. Резюме предоставляется BoxPlots
- Медиана: Медиана – это среднее количество двух чисел. Это среднее значение набора данных.
- Первый квартиль (Q1) : Первый квартиль – это медиана данных указывает на левый медиана. Это также известно как 25-е место
- Третий квартиль (Q3): Третий квартиль – это медиана данных о том, как правильно медиана.
- Межструйный диапазон (IQR): Q3 – Q1 или данные между 25-го процентилем до 75-го процентиля.
- Минимум: Q1 -1.5 * IQR (исключая выбросы)
- Максимум: Q3 + 1.5 * IQR (исключая выбросы)
2. Выбросы
Boxplots действительно хороши в выходе в предоставленные данные. Наиболее распространенным методом для точечных выбросов с BoxPlots является 1.5 X IQR Правило Отказ
Любая точка данных меньше, чем q1 – 1.5xiqr и любая точка данных, превышающая Q3 + 1.5xiqr, считается выбросом.
Реализация боксов с Python
Boxplots могут быть построены с использованием многих библиотек поручения. Давайте проверим, как мы можем создавать Boxplots, используя Python.
Набор данных, который мы будем использовать, – это набор набора Titian, чтобы продемонстрировать построение, вы можете скачать DataSet здесь Отказ
1. Использование панда
Пандас иметь boxplot
Метод вызывается dataframe Что просто требует столбцов, которые нам нужно построить в качестве входного аргумента.
#Import the required modules import numpy as np import pandas as pd data = pd.read_csv('Titanic.csv') #Plotting Boxplot of Age column boxplot = data.boxplot(column=['Age'])
Если наши данные имеют категорические значения в нем I.e. Gender и т. Д. Тогда Pandas может создавать boxplot на основе каждой категории. Давайте посмотрим, как это сделать.
boxplot = data.boxplot(column=['Age' ], by = ['Sex'])
Мы также можем пройти список более одного столбца для группировки данных на основе предоставленных столбцов, а затем создание блоков.
boxplot = data.boxplot(column=['Age' ] , by = ['Sex','Survived'] , notch = True)
Когда NOTCH установлено значение TRUE, мы получаем выемки на BoxPlot, который показывает доверительные интервалы для медианного значения, по умолчанию он устанавливается на доверительный интервал 95%.
Использование boxplot
Способ набора данных становится действительно быстрым, чтобы визуализировать баллоны.
2. Использование Meanborn
С Seborborn мы можем построить некоторые действительно хорошие баллоны качества публикации. Давайте направимся в это.
#Importing required modules import seaborn as sns import pandas as ppd data = pd.read_csv('Titanic.csv') sns.boxplot(data = data , x = 'Survived' , y = 'Age' , hue = 'Sex')
Предположим, теперь мы хотим, которые мы хотим в возрасте людей, которые выжили и потеряли свою жизнь и сгруппировали по признаку пола, Searborn BoxPlot имеет оттенок
Аргумент, который полезен для этой цели.
sns.boxplot(data = data , x = 'Survived' , y = 'Age' , hue = 'Sex' , notch = True )
3. Использование MATPLOTLIB
Несмотря на то, что мы можем создавать более эстетические участки с меньшим количеством строк кода с использованием библиотеки Seborn, но Seaborn на самом деле построен на вершине Матплотлиб Отказ У Matplotlib есть способ построить коробки и удобно называться как boxplot
Отказ
Давайте создадим boxplots с помощью matplotlib.
# importing required modules import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv('Titanic.csv') plt.boxplot(data.Age.dropna() , labels = ['Age']) plt.show()
Мы можем создавать BoxPlot из нескольких переменных, передавая их в виде списка.
plt.boxplot([data.Fare , data.Age.dropna()] , labels = ['Fare' , 'Age']) plt.show()
Заключение
В этой статье мы исследовали бакплаты, их важность и то, для чего они используются. Мы также реализовали коды, чтобы создать наши собственные баллоны с использованием библиотек Pandas, Seanborn и Matplotlib соответственно. Счастливое обучение!