Рубрики
Без рубрики

Boxplots: Все, что вам нужно знать

Boxplots используют квартили, чтобы показать, как распределен данные данные. Нахождение распространения наших данных является неотъемлемой частью исследования анализа данных (EDA). Для

Автор оригинала: Pankaj Kumar.

Boxplots: Все, что вам нужно знать

Boxplots Используйте квартилы, чтобы показать, как распределен заданные данные. Нахождение распространения наших данных является неотъемлемой частью исследования анализа данных (EDA). Для этого у нас есть некоторые существующие инструменты, такие как Гистограммы и Плотность графиков Отказ

Но Boxplots предлагают некоторые серьезные преимущества за этими двумя.

Boxplots Упакуйте дополнительную информацию в очень маленькой поверхности и могут быть полезны при сравнении двух или более переменных на одном графике.

В этой статье мы узнаем, какие баллоны все о том, что их использование и как реализовать boxplot с помощью python.

Интерпретация бокса

Boxplots отображают распределение данных на основе пяти сводных статистических данных, а именно:

  • Первый квартиль (Q1)
  • Третий квартиль (Q3)
  • минимально
  • максимум
  • посредственность

Он фокусируется на диапазоне значений в распределении.

Компоненты участка коробки

1. Резюме предоставляется BoxPlots

  • Медиана: Медиана – это среднее количество двух чисел. Это среднее значение набора данных.
  • Первый квартиль (Q1) : Первый квартиль – это медиана данных указывает на левый медиана. Это также известно как 25-е место
  • Третий квартиль (Q3): Третий квартиль – это медиана данных о том, как правильно медиана.
  • Межструйный диапазон (IQR): Q3 – Q1 или данные между 25-го процентилем до 75-го процентиля.
  • Минимум: Q1 -1.5 * IQR (исключая выбросы)
  • Максимум: Q3 + 1.5 * IQR (исключая выбросы)

2. Выбросы

Boxplots действительно хороши в выходе в предоставленные данные. Наиболее распространенным методом для точечных выбросов с BoxPlots является 1.5 X IQR Правило Отказ

Любая точка данных меньше, чем q1 – 1.5xiqr и любая точка данных, превышающая Q3 + 1.5xiqr, считается выбросом.

Реализация боксов с Python

Boxplots могут быть построены с использованием многих библиотек поручения. Давайте проверим, как мы можем создавать Boxplots, используя Python.

Набор данных, который мы будем использовать, – это набор набора Titian, чтобы продемонстрировать построение, вы можете скачать DataSet здесь Отказ

1. Использование панда

Пандас иметь boxplot Метод вызывается dataframe Что просто требует столбцов, которые нам нужно построить в качестве входного аргумента.

#Import the required modules
import numpy as np
import pandas as pd

data = pd.read_csv('Titanic.csv')

#Plotting Boxplot of Age column
boxplot = data.boxplot(column=['Age'])
Pandas Boxplot Возраст

Если наши данные имеют категорические значения в нем I.e. Gender и т. Д. Тогда Pandas может создавать boxplot на основе каждой категории. Давайте посмотрим, как это сделать.

boxplot = data.boxplot(column=['Age' ], by = ['Sex'])
Pandas Boxplot Возраст с гендерными колоннами

Мы также можем пройти список более одного столбца для группировки данных на основе предоставленных столбцов, а затем создание блоков.

boxplot = data.boxplot(column=['Age' ] , by = ['Sex','Survived'] , notch = True)
Pandas BoxPlot сгруппирован по полу и пережил колонны

Когда NOTCH установлено значение TRUE, мы получаем выемки на BoxPlot, который показывает доверительные интервалы для медианного значения, по умолчанию он устанавливается на доверительный интервал 95%.

Использование boxplot Способ набора данных становится действительно быстрым, чтобы визуализировать баллоны.

2. Использование Meanborn

С Seborborn мы можем построить некоторые действительно хорошие баллоны качества публикации. Давайте направимся в это.

#Importing required modules
import seaborn as sns
import pandas as ppd

data = pd.read_csv('Titanic.csv')

sns.boxplot(data = data , x = 'Survived' , y = 'Age' , hue = 'Sex')
Searborn Boxplot сгруппирован по полу

Предположим, теперь мы хотим, которые мы хотим в возрасте людей, которые выжили и потеряли свою жизнь и сгруппировали по признаку пола, Searborn BoxPlot имеет оттенок Аргумент, который полезен для этой цели.

sns.boxplot(data = data , x = 'Survived' , y = 'Age' , hue = 'Sex' , notch = True )
Seanborn BoxPlot сгруппирован по полу и пережил колонны

3. Использование MATPLOTLIB

Несмотря на то, что мы можем создавать более эстетические участки с меньшим количеством строк кода с использованием библиотеки Seborn, но Seaborn на самом деле построен на вершине Матплотлиб Отказ У Matplotlib есть способ построить коробки и удобно называться как boxplot Отказ

Давайте создадим boxplots с помощью matplotlib.

# importing required modules
import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv('Titanic.csv')

plt.boxplot(data.Age.dropna() , labels = ['Age'])
plt.show()
Matplotlib boxplot age.

Мы можем создавать BoxPlot из нескольких переменных, передавая их в виде списка.

plt.boxplot([data.Fare , data.Age.dropna()] , labels = ['Fare' , 'Age'])
plt.show()

Matplotlib Boxplot на тарифах и возрасте

Заключение

В этой статье мы исследовали бакплаты, их важность и то, для чего они используются. Мы также реализовали коды, чтобы создать наши собственные баллоны с использованием библиотек Pandas, Seanborn и Matplotlib соответственно. Счастливое обучение!