Рубрики
Без рубрики

Учебник по Python Seaborn

Модуль Python Seaborn служит для легкой визуализации данных с более высокой эффективностью. Чтобы представить вариации в огромном наборе данных,

Автор оригинала: Pankaj Kumar.

Модуль Python Seaborn служит для легкой визуализации данных с более высокой эффективностью. Для представления вариаций в огромном наборе данных визуализация данных считается лучшим способом отображения и анализа данных.

Seaborn отличается лучшим набором функций для визуализации данных, чем Matplotlib, оптимизированным и эффективным способом. Он поддерживает структуру данных NumPy и Pandas для представления наборов данных.

Но для того, чтобы начать работу с модулем Seaborn, я настоятельно рекомендую читателям разобраться в модуле Python Matplotlib .

Начало работы с Python Seaborn

Чтобы начать работу с функциональными возможностями модуля Seaborn, нам необходимо установить модуль в нашей среде, используя приведенную ниже команду:

pip install Seaborn

Модуль Seaborn требует установки следующих модулей для бесперебойной работы:

  • Matplotlib
  • Тупица
  • Панды
  • СциПи

Я связал маркированные пункты с соответствующими статьями для справки.

Файлы данных, используемые в учебнике

Мы будем работать с CSV-файлами на протяжении всего урока, поэтому в этом разделе выделяются файлы, которые мы будем использовать на протяжении всего урока.

Везде, где вы видите ссылку на следующие имена файлов, вы можете вернуться к этому разделу, чтобы понять передаваемые данные.

Book1.csv:

Входной csv-файл

советы.csv :

Советы По Вводу Csv

Python Seaborn Для Статистического Анализа

Статистический анализ является основным оценкой из некоторых параметров набора данных в значительной степени. Визуализацию данных можно рассматривать как лучший способ выполнения статистического анализа, т. е. прогнозирования результата или причины на основе диаграммных значений.

Любой из следующих способов может быть принят во внимание при статистическом анализе:

  • сиборн.()
  • сиборн.линейный участок()

1. сиборн.точечная диаграмма()

Функция seaborn.scatterplot() в основном используется для отображения взаимосвязи между параметрами на заданных осях соответственно. Каждая точка на графике отображает соответствующее ей значение.

Синтаксис:

seaborn.scatterplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt

csv = pandas.read_csv(r'C:\Book1.csv')
res = seaborn.scatterplot(x="Name", y="Age", data=csv)
plt.show()

В приведенном выше примере мы импортировали модуль Python Pandas , чтобы использовать функцию read_csv() для чтения содержимого набора данных.

Столбец ” Имя “представлен осью x,а столбец”Возраст”-осью y.

Выход:

Питон Сиборн-диаграмма рассеяния

2. сиборн.линейный участок()

Функция seaborn.line plot() может широко использоваться в ситуациях, когда мы чувствуем необходимость проверять зависимость одного параметра от другого непрерывным образом относительно времени.

Синтаксис:

seabron.lineplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
csv = pandas.read_csv(r'C:\Book1.csv')
res = seaborn.lineplot(x="Name", y="Age", data=csv)
plt.show()

Выход:

Участок морской линии

Категориальная точечная диаграмма

Категориальные данные делятся и представляются в виде дискретных групп, т. Е. подмножества исходных данных.

Модуль Python Seaborn содержит следующие методы представления и визуализации категориальных данных:

  • seaborn.catplot()
  • сиборн,стрипплот()
  • сиборн,болото()

1. seaborn.cat сюжет()

Функция seaborn.catplot () , как упоминалось выше, является одним из методов анализа взаимосвязи между числовым значением и категориальной группой значений вместе.

Синтаксис:

seaborn.catplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt


csv = seaborn.load_dataset("tips")
res = seaborn.catplot(x="tip", y="sex", data=csv)

plt.show()

Выход:

Сиборн-кэтплот

2. сиборн.стрипплот()

Функция seaborn.strip plot() рассматривает один из входных столбцов как категориальный ввод данных, а затем строит точки соответственно в порядковом порядке, несмотря на различный тип входных данных.

Синтаксис:

seaborn.stripplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt


csv = seaborn.load_dataset("tips")
res = seaborn.stripplot(x="tip", y="sex", data=csv,jitter=0.05)

plt.show()

Параметр jitter полезен, когда набор данных состоит из точек данных, которые перекрываются. В таких случаях установка значения дрожания может помочь им получить равномерно распределенное .

Выход:

Сиборн-стрипплот

3. сиборн.болото()

Функция seaborn.swarm plot() напоминает функцию seaborn.stripplot() с небольшим отличием. Функция seaborn.swarm plot() строит значения данных вдоль выбранной категориальной оси. Таким образом, он полностью избегает перекрытия .

Синтаксис:

seaborn.swarmplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt


csv = seaborn.load_dataset("tips")
res = seaborn.swarmplot(x="tip", y="sex", data=csv)

plt.show()

В приведенном выше примере я передал столбец ” пол ” в качестве единственных категориальных данных и построил график против них по оси x соответственно.

Выход:

Сиборн-болото

Участки категориального распределения

Категориальные данные распределения в основном относятся к типу данных, в которых результат описывает определенную возможность принадлежности случайной/выбранной переменной к одной из заданных возможных категорий .

Python Seaborn имеет следующие функции для эффективного представления категориальных распределенных данных:

  • сиборн.скрипичный план()
  • seaborn.boxplot()
  • seaborn.boxplot()

1. сиборн.скрипичный сюжет()

Функция seaborn.violin plot() представляет базовое распределение данных. Он отображает и представляет распределение данных по различным вводимым категориальным данным.

Синтаксис:

seaborn.violinplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.violinplot(x=csv['Age'])
plt.show()

В приведенном выше примере мы рассмотрели распределение данных по столбцу-“Возраст”, соответственно.

Выход:

Сиборн-скрипка

2. seaborn.boxplot()

Функция seaborn.boxplot() представляет категориальное распределение данных и устанавливает сравнение между различными категориальными входными данными.

Структура ‘box’ представляет основной квартиль ввода данных , в то время как структура ‘line’ представляет остальную часть распределения данных. выбросы представлены точками с использованием межквартильной функции .

Синтаксис:

seaborn.boxplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.boxplot(x=csv['Age'])
plt.show()

В приведенном выше примере мы использовали файл Book1.csv в качестве набора входных данных.

Если вы попытаетесь проанализировать набор данных, вы обнаружите, что возраст-12 лет является более выбросным типом данных, а остальные данные находятся в диапазоне от 15 до 27 лет. Это хорошо представлено функцией seaborn.boxplot () .

Выход:

Seaborn-boxplot

3. seaborn.boxplot()

Функция seaborn.boxplot() очень похожа на функцию seaborn.boxplot() с небольшой разницей в представлении.

Функция seaborn.boxplot() представляет распределение категориальных данных таким образом, что большие квартили представляют функции, соответствующие фактическим данным наблюдений. Он представляет данные в формате, который дает нам подробную информацию в визуализированной форме обо всем распределении данных.

Синтаксис:

seaborn.boxenplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.boxenplot(x=csv['Age'])
plt.show()

Если вы проанализируете и сравните приведенные ниже выходные данные с набором входных данных, то ясно поймете, что boxenplot представляет собой все распределение точек данных в диапазоне от 12 до 27, а также распределение категориальных данных с большой структурой квартилей.

Выход:

Seaborn-boxplot

Категориальные оценочные участки

Оценка категориальных данных в основном относится к представлению определенной оценки или прогноза значений категориальных данных соответствующей переменной данных.

Python Seaborn имеет следующие функции, которые будут использоваться для оценки категориальных данных:

  • сиборн.()
  • сиборн,барплот()
  • сиборн.точечная схема()

1. seaborn.count plot()

Функция seaborn.counplot() используется для оценки и представления категориальной переменной в терминах ее частоты или количества.

Синтаксис:

seaborn.countplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.countplot(x=csv['Age'])
plt.show()

Выход:

Заговор

Как ясно видно на приведенном выше изображении, функция count plot () в основном подсчитала частоту поля входных данных и представила его вдоль оси y, в то время как поле данных- “Возраст” – представлено вдоль оси x.

2. seaborn.barplot()

Функция seaborn.barplot() в основном представляет оценочные данные в виде центральной тенденции представления данных.

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.barplot(x=csv['Name'], y=csv['Age'])
plt.show()

Выход:

Сиборн-барплот

3. сиборн.точечная схема()

Функция seaborn.point plot() представляет собой оценку центральной тенденции распределения с помощью точек рассеяния и линий, соединяющих их.

Синтаксис:

seaborn.pointplot(x=value, y=value, data=data)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.pointplot(x=csv['Name'], y=csv['Age'])
plt.show()

Выход:

Сиборн-точечная схема

Индивидуальные стили и темы в Seaborn

Python Seaborn имеет встроенные функции и темы для лучшей и привлекательной визуализации данных.

Функция seaborn.set() используется для получения по умолчанию темы выходной визуализации.

Синтаксис:

seaborn.set()
import seaborn
import pandas
import matplotlib.pyplot as plt
seaborn.set()
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.pointplot(x=csv['Name'], y=csv['Age'])
plt.show()

Выход:

Морской стиль с использованием набора()

Python Seaborn предоставляет нам следующие темы для работы и представления, визуализации данных:

  • Клещи
  • Тема белой сетки
  • Темная тема сетки
  • Темный
  • Белый

Синтаксис:

seaborn.set_style("theme-name")

Пример: 1- Темная тема

import seaborn
import pandas
import matplotlib.pyplot as plt
seaborn.set_style("dark")
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.pointplot(x=csv['Name'], y=csv['Age'])
plt.show()

Выход:

Морская Темная тема

Пример: 2- Тема белой сетки

import seaborn
import pandas
import matplotlib.pyplot as plt
seaborn.set_style("whitegrid")
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.pointplot(x=csv['Name'], y=csv['Age'])
plt.show()

Выход:

Тема белой сетки Seaborn

Многоплоскостные сетки в Сиборне

Чтобы точно представить большой набор данных с категориальными значениями, мы можем нарисовать несколько графиков подмножеств данных для его визуализации.

Синтаксис:

seaborn.FacetGird(data, col=value, col_wrap=value)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
seaborn.set_style("whitegrid")
csv = pandas.read_csv("C:\\Book1.csv")
res = seaborn.FacetGrid(csv, col="Age", col_wrap=3)
res.map(seaborn.barplot, "Name", "Age")
plt.show()

Класс FacetGrid используется для широкого представления данных с помощью нескольких графиков по отношению к подмножествам данных. Он может быть представлен в следующих измерениях:

  • ряд
  • седло
  • оттенок

Параметр col_wrap в основном представляет количество строк, вдоль которых должны быть представлены графики.

Функция FacetGrid.map() используется для применения метода построения к каждому подмножеству данных.

Выход:

Многосеточный Сиборн

Построение одномерных распределений с помощью Seaborn

Одномерное распределение в основном относится к распределению данных по отношению к одной случайной переменной/элементу данных .

Функция seaborn.distplot() модуля Python Seaborn может использоваться для представления одномерного распределения набора данных.

Синтаксис:

seaborn.distplot(data-column)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
seaborn.set_style("whitegrid")
csv = pandas.read_csv("C:\\Book1.csv")
res=seaborn.distplot(csv['Age'])
plt.show()

Выход:

Сиборн Дистплот

Изображение двумерных распределений с Морским рожком

|/Двумерное распределение относится к визуализации данных относительно двух столбцов данных или элементов набора данных .

seaborn.joint plot() можно использовать для отображения взаимосвязи между двумя переменными данных.

Синтаксис:

seaborn.jointplot(x=variable1, y=variable2)

Пример:

import seaborn
import pandas
import matplotlib.pyplot as plt
seaborn.set_style("darkgrid")
csv = pandas.read_csv("C:\\Book1.csv")
res=seaborn.jointplot(x=csv['Age'], y=csv['Age'])
plt.show()

В приведенном выше примере мы использовали обе переменные как “Возраст” просто для простоты, чтобы изобразить визуализацию данных.

Выход:

Совместный план Сиборна

Вывод

Таким образом, в этой статье мы поняли основную функциональность, предлагаемую Python Seaborn для визуализации данных .

Рекомендации