Рубрики
Без рубрики

Как построить график для фрейма данных в Python?

Знание того, как построить фрейм данных, поможет вам лучше анализировать данные всего за несколько строк кода. Визуализация фрейма данных-одно из первых действий

Автор оригинала: Pankaj Kumar.

Знание того, как построить фрейм данных, поможет вам лучше анализировать данные всего за несколько строк кода. Визуализация фрейма данных-это одно из первых мероприятий, выполняемых учеными, изучающими данные, для лучшего понимания данных.

Визуализация набора данных часто дает лучшую картину и помогает вам спланировать свой курс действий. Это также позволяет легко выявлять выбросы и строить предположения о существовании какой-либо корреляции в наборе данных.

Короче говоря, знание того, как визуализировать фрейм данных, является важным навыком.

Методы построения фрейма данных в Python

Давайте начнем с импорта набора данных.

1. Импортируйте набор данных

В рамках этого урока мы будем использовать набор данных California Housing dataset.

Давайте начнем с импорта данных в фрейм данных с помощью pandas .

import pandas as pd
housing = pd.read_csv("/sample_data/california_housing.csv")
housing.head()
Кадр данных корпуса 2

Построение графиков с использованием панд

Вы можете построить свой фрейм данных с помощью метода .plot () в фрейме данных Pandas.

Вам нужно будет импортировать matplotlib в свой блокнот python. Для этого используйте следующую строку.

import matplotlib.pyplot as plt

1. Построение гистограмм фреймов данных

Чтобы построить гистограммы, соответствующие всем столбцам в данных о жилье, используйте следующую строку кода:

housing.hist(bins=50, figsize=(15,15))
plt.show()
Построение

Это хорошо, когда вам нужно увидеть все столбцы, построенные вместе. Далее давайте рассмотрим, как сделать точечные диаграммы между двумя столбцами.

2. Точечные диаграммы

Точечные диаграммы помогают определить корреляцию между двумя переменными.

Для построения точечной диаграммы между двумя переменными используйте следующую строку кода:

housing.plot(x='population', y = 'median_house_value', kind='scatter')
plt.show()

Это дает следующий результат:

Точечная диаграмма

Мы видим, что в наборе данных есть несколько выбросов. Мы не видим сильной корреляции между этими двумя переменными.

Давайте попробуем построить график медианный доход против медианной стоимости дома.

housing.plot(x='median_income', y = 'median_house_value', kind='scatter')
plt.show()
Точечная диаграмма 1

Здесь мы видим положительную корреляцию между этими двумя переменными. По мере роста среднего дохода средняя стоимость жилья также имеет тенденцию к росту.

Чтобы увидеть пример еще более сильной корреляции, давайте построим еще одну диаграмму рассеяния. На этот раз между населением и общим количеством комнат. Логически эти две вещи должны иметь сильную положительную корреляцию.

Положительная корреляция означает, что эти две переменные имеют тенденцию увеличиваться и уменьшаться вместе.

housing.plot(x='population', y = 'total_rooms', kind='scatter')
plt.show()
Точечная диаграмма 2

Наше предположение было верным, общее количество комнат и население действительно имеют сильную положительную корреляцию. Мы можем так сказать, потому что обе переменные имеют тенденцию увеличиваться вместе, как видно на графике.

Ниже приведены различные аргументы, которые можно использовать при построении различных графиков:

  • “линия”: линейный график (по умолчанию)
  • “бар”: вертикальная полоса
  • ‘barh’: горизонтальная полоса
  • “hist”: гистограмма
  • “коробка”: boxplot
  • “kde”: График оценки плотности ядра
  • “плотность”: то же, что и “kde”
  • “площадь”: площадь участка
  • “пирог”: участок пирога
  • “разброс”: точечная диаграмма
  • ‘hexbin’: сюжет hexbin

Построение графика с использованием Seaborn

Кроме того, вы также можете построить кадр данных с помощью Seaborn . Это библиотека визуализации данных Python, основанная на matplotlib . Он обеспечивает высокоуровневый интерфейс для рисования привлекательной и информативной статистической графики.

Сиборн-очень мощный инструмент визуализации. Вместе с ним вы получаете множество вариантов настройки.

1. Импорт Морского рожка

Давайте начнем с импорта Seaborn в нашу записную книжку на python.

import seaborn as sns

2. Использование Distplot

Seaborn предоставляет возможность построить distplot . Distplot-это гистограмма с автоматическим вычислением хорошего размера ячейки по умолчанию.

Вы можете создать его, используя следующую строку кода:

sns.distplot(housing['median_house_value'])
Дистплот

Здесь также вы можете обнаружить выброс. Давайте попробуем также построить график для среднего дохода.

sns.distplot(housing['median_income'])
Дистплот 1

Вывод

Этот учебник был посвящен построению фрейма данных Pandas на Python. Мы рассмотрели два различных метода построения фрейма данных. Надеюсь, вам было весело учиться с нами!