Рубрики
Без рубрики

Деконструировать график коробки и усы

При попытке понять, какой набор данных выглядит так, есть много вариантов, как к вашему … Помечено с датоматериализациями, Datascity, Python.

При попытке понять, как выглядит набор данных, есть много вариантов, как его визуализировать его. Важно выбрать те, которые обслуживают конкретный вопрос, который мы хотим задать.

Гистограмма обычно является первым выбором при визуализации данных и выполнение предварительного анализа распределения. Однако участок коробки и усы (часто называемый коробкой), однако, можно использовать самостоятельно или в качестве дополнительного инструмента в анализе данных.

Участок коробки использует 5 важных описательной статистики распределения: Среднее значение , нижний квартиль , Верхний квартиль и Максимальные и минимальные значения Отказ Это быстро дает нам ощущение того, какие данные выглядят так, как и позволяет сравнивать разные группы данных на одном простом участке.

Вот пример базовой коробки:

Ограничения

Важно понимать, что эти 5 статистики не могут быть единственной мерой распространения, используемой для описания распределения, уступая метрикам, таким как среднее и стандартное отклонение. Однако в случае, если распределение сильно перекошено или если есть выбросы, это может быть очень полезным инструментом для проверки формы, распространения и изменчивости данных.

Коробка сюжеты великолепны в том, что данные симметричны, но они не покажут тип симметрии. Например, два набора данных могут выглядеть точно так же, как коробчатые участки, но можно иметь значительную изменчивость частот, а другая равномерно распределена. Участок коробки не будет правильным инструментом для проверки этих функций. По этой причине плана коробок лучше использовать в сочетании с другими способами визуализации, такими как, например, гистограмма.

Визуализация выбросов с коробками

Одним из главных целей ящика является быстро визуализировать выбросы, чтобы посмотреть, необходимо ли удалить их для дальнейшего анализа. Но на самом деле понять, что считается выбросом, давайте посмотрим на следующее представление коробки и PDF нормального распределения.

Усы фактически представляют значения, помимо того, что данные будут рассмотрены выбросами. Чтобы определить нижний предел, межбюртирный диапазон 1,5 вычитается из 1-й квартили. Чтобы определить верхний предел, мы должны добавить в 1,5 раза межбюртирующему диапазону до 3-й квартили.

В нормальном распределении ящик с утилизациями представляет собой 99,3% всех данных; То есть выбросы составляют всего 0,7% данных.

Сравнение данных

Еще одна очень важная утилита плат-участков является сравнение данных из разных групп. Построение нескольких загруженных участков рядом друг с другом дает нам прекрасное чувство того, похоже ли группы.

Вещи, которые мы должны искать:

  • Если коробки перекрываются. Если нет перекрытия, совсем ясно, что группы разные.

  • Если медианы в визуальном диапазоне коробки по сравнению с. Если нет, вполне вероятно, что группы разные.

  • Диапазоны коробок. Полезно оценить сравнительный ассортимент коробок, чтобы увидеть, сколько разницы есть в распространении данных.

  • Аморт. Как искажена легко наблюдается из заговоров коробки, может быть полезно сравнить этот параметр между двумя участками.

Этот предварительный визуальный анализ может помочь понять, если две группы, на которых мы смотрим, аналогичны, и если нам нужно применить некоторые другие методы для дальнейшего измерения, насколько они различаются.

Давайте посмотрим на данные от доклада мирового счастья от Kaggle Отказ Во-первых, давайте посмотрим на баллы счастья с 2017 и 2016 годов.

Группы явно очень похожи, поскольку медианы расположены на одном уровне. Распространение второго участка немного шире, что первый.

Однако, если мы сравним очки для здоровья и свободы, коробочные участки покажут больше различий.

Мы можем фактически извлечь значения статистики, рассчитанные по графику коробки. Объект, который возвращается после создания сюжета, имеет все значения, хранящиеся в нем. Чтобы увидеть, какие ключи у него есть, мы можем запустить bp.keys () Отказ Например, чтобы извлечь медиану, мы можем использовать следующий код:

#get values for the medians
#bp is a box plot object

medians = []
for i in bp['medians']:
    medians.append(i.get_data()[1][0])

медианы сейчас равен [0.6060415506362921, 0.43745428323745705]

Чтобы получить верхний и нижний уровни коробок, мы можем реализовать этот код, где мы получим доступ к второму элементу из BP [«Ящики»] Объект, представляющий значения оси Y для линий. После этого мы выберем первый и третий элемент, который ниже и верхнее значение оси Y коробки:

#get values for boxes' lower and upper values
boxes = []
for i in bp['boxes']:
    boxes.append(i.get_data()[1][0])
    boxes.append(i.get_data()[1][3])

коробки Теперь содержит список [0.36986629664897896, 0.723007529973984, 0.3036771714687345, 0.5165613889694209]

Итак, диапазон первой коробки (где находится 50% данных), находится между 0,37 и приблизительно 0,72, с 0,61 в качестве среднего значения. Участок второй коробки имеет диапазон от 0,30 до 0,52 с средним значением на 0,44.

Земельный участок

Одна интересная особенность коробковых участков, которые часто упускают из виду вырезать Параметр, который позволяет сравнивать доверительные интервалы для среднего значения. По умолчанию уровень доверия составляет 95%. Эта опция особенно полезна для сравнения групп одинаковых значений, и мы будем искать визуальные перекрытия выемки, которые будут указывать на сходство/различия в средних значениях.

Заготовки для зубчатых коробок могут быть использованы вместе с другим параметром в ящике Matplotlib, Bootstrap Отказ По умолчанию он устанавливается равно ничего. Если установлено в целое число, то это будет указывать, сколько раз должно быть выполнено загрузка для определения доверительных интервалов.

Другие полезные варианты

Есть несколько других параметров, которые могут быть полезны при создании плата с библиотекой MATPLOTLIB.

Сим : Определяет взгляд флаеных очков. Установка его равных пустым строке скажет MatPlotlib, который мы не хотим показывать выбросы.

Whis : Параметр позволяет изменить досягаемость усов. По умолчанию этот параметр равен 1,5. Нижний и верхний диапазон усов определяют Q1 – 1.5 * IQR и Q3 + 1,5 * IQR. Если Whis Установлено на «диапазон» строки, усы достигают минимальных и максимальных значений.

Vert : принимает логическое значение. По умолчанию он устанавливается на true, но если установлено значение false, график коробки появится горизонтально.

позиции : принимает массивный параметр. По умолчанию это (1, N + 1), где n – количество заговоров коробки. Если установлено значение (1,1), 2 полевые участки будут перекрываться.

Ширина : Устанавливает ширину каждой коробки.

этикетки : Устанавливает этикетки для каждого участка коробки.

Ссылки и дальнейшее чтение

Визуализации из этого блогпоста можно найти в моем Профиль Githib Отказ

Оригинал: “https://dev.to/annalara/deconstructing-the-box-and-whisker-plot-11f3”