Помимо того факта, что они являются частью Интерактивная визуализация данных с использованием plotly и python

Python отлично подходит для исследования данных и анализа данных, и все это благодаря поддержке удивительных библиотек, таких как Numpy, Pandas, Matplotlib и многих других. На нашем этапе изучения данных и анализа данных очень важно понимать данные, с которыми мы имеем дело, и для этих визуальных представлений наших данных может быть чрезвычайно важным.

Нам обычно работают над этими проектами, используя ноутбуки Jupyter, потому что они отличные, быстрые, простые, и они позволяют нам взаимодействовать и играть с нашими данными. Однако существуют ограничения на то, что мы можем сделать, обычно, когда мы работаем с диаграммами, мы используем библиотеки, такие как Matplotlib, или Seaborn, но эти библиотеки показывают статические изображения наших диаграмм и графиков. Но многие вещи теряются в деталях, и поэтому нам нужно точно настроить наши графики, чтобы просто изучить разделы наших данных. Разве не было бы здорово, если бы мы могли просто взаимодействовать с нашими диаграммами, увеличивая, добавляя контекстную информацию в наши точки данных, такие как взаимодействие на Hover? Вот где сюжет может помочь нам.

Plotly-это библиотека Python, которая создает интерактивные графики качества публикации, такие как линейные графики, графики рассеяния, графики области, барные диаграммы, столбцы ошибок, графики ящиков, гистограммы, тепловые карты, сюжеты и многое другое.

Но мы говорили достаточно, давайте начнем строить несколько графиков …

Установка зависимостей

Прежде чем что -либо построить, давайте установим зависимости. Я люблю использовать Pipenv Но то же самое относится и к Анаконде или другим менеджерам пакетов.

Вот список зависимостей нам нужно

Юпитер: веб -приложение, которое позволяет создавать и обмениваться документами, которые содержат живой код, уравнения…. ты это знаешь!
Панды: Очень мощная библиотека для анализа данных в целом, и мы будем использовать его в нашем проекте для обработки наших данных
Numpy: Научные вычисления для Python, используемые в нашем проекте по математике и генерации случайных чисел
Seaborn: статистическая визуализация данных на основе Matplotlib, мы будем использовать его для загрузки некоторых образцов данных, которые поставляются с библиотекой
запонки: Позволяет сюжету работать с пандами
СПОЛНЕК: Интерактивная библиотека диаграммы

Вот команды для их установки:

pipenv install jupyter
pipenv install plotly cufflinks pandas seaborn numpy

Начиная

Чтобы начать, нам нужно начать нашу тетрадь Юпитера и создать новый документ:

pipenv run jupyter notebook

Как только мы там мы можем начать добавлять код. Поскольку эта статья не является учебником по ноутбукам Jupyter, я просто сосредоточусь на коде, а не на том, как использовать документ.

Давайте начнем импортировать библиотеки:

import pandas as pd
import numpy as np
import seaborn as sns
import cufflinks as cf

Парень с помощью других библиотек может отображать графики в разных контекстах, например, в ноутбуке Юпитера, онлайн на панели панели, и т. Д. По умолчанию библиотека работает с автономным режимом, который мы хотим. Тем не менее, нам также необходимо сообщить запонкам, что мы будем использовать режим автономного режима для диаграмм. Этот параметр может быть сделан программно, добавив следующую ячейку в нашу ноутбук:

cf.go_offline()

Теперь мы готовы получить некоторые данные и начать график.

Генерирование случайных данных

Я не хочу столько сосредоточиться на том, как загружать или извлекать данные, поэтому по этой причине мы просто генерируем случайные данные для диаграмм, в новой ячейке мы можем использовать Pandas и Numpy для создания 3D -матрицы:

df = pd.DataFrame(np.random.randn(300, 3), columns = ["X", "Y", "Z"])
df.head()

Потрясающе, используя Numpy, мы можем генерировать наши случайные числа, и мы можем загрузить их в объект DataFrame Pandas. Посмотрим, как выглядят наши данные:

df.head()

И мы получаем:

          X Y Z
0 0.176117 1.221648 1.201206
1 1.931615 -2.303667 1.914741
2 1.213322 -0.434855 -0.639277
3 0.763220 0.118211 -0.838034
4 0.245442 0.697897 1.169540

Замечательно! Время построить несколько графиков.

Наши первые сюжеты

Удобным способом построения данных DataFrames является использование метода Iplot, доступного в сериях и DataFrames, любезно предоставленных запонками. Начнем со всех дефолтов:

df.iplot()

Линейная диаграмма – все значения по умолчанию

При простых зрелищах это похоже на любую другую график, но если вы наведите на свою мышь на графике, вы начнете видеть какую -то магию. Панель инструментов появляется в правом верхнем углу экрана, которая позволяет масштабировать, сковороду и другие вещи. Диаграмма также позволяет увеличить масштаб, нарисовав область на графике или просто просмотреть подъему инструмента в каждой точке данных с дополнительной информацией, такой как значение.

Наша таблица выше, безусловно, лучше, чем статическая карта, однако все еще не очень хороша. Давайте попробуем отображать ту же диаграмму, используя график рассеяния.

df.iplot(mode = "markers")

Маркеры диаграммы

Не ужасно, но не очень хорошего , точки слишком большие, давайте изменим их размер:

df.iplot(mode = "markers", size = 5)

Диаграмма маркеров – размер точки настраивания данных

Намного лучше! Далее, давайте попробуем что -нибудь другое.

Бар -карты

Давайте забудем наш случайно сгенерированный набор данных в течение минуты, и давайте загрузим популярный набор данных из библиотеки Seaborn, чтобы представить некоторые другие типы диаграмм.

titanic = sns.load_dataset("titanic")
titanic.head()

Набор данных, над которым мы будем работать, называется «Титаник», и содержит информацию о том, что случилось с людьми, которые путешествовали на Титаник в этот трагический день.

Одна специальная переменная в этом наборе данных – это выжил переменная, которая содержит логическую информацию, 0 для тех, кто погиб, и 1 для тех, кто пережил аварию. Давайте построим планку, чтобы увидеть, как могут выжить мужчина и женщина:

titanic.iplot(kind = "bar", x = "sex", y = "survived")

Барная карта

Однако эту тенденцию можно легко увидеть, если вы просто разделяете эту диаграмму, невозможно узнать, о чем мы говорим, поскольку у нее нет легенд, ни названия. Итак, давайте исправим это:

titanic.iplot(kind = "bar", x = "sex", y = "survived", title = "Survivors", xTitle = "Sex", yTitle = "Number of survived")

Барная схема с названиями

Теперь это намного лучше!

Но что, если мы хотим нарисовать горизонтальный планшет? Достаточно просто:

titanic.iplot(kind = "barh", x = "sex", y = "survived")

Горизонтальная барная карта

Большой! Давайте рассмотрим более функциональность

Темы

Наши диаграммы пока выглядят великолепно, но, возможно, мы хотим использовать другую цветовую схему для наших графиков. К счастью, у нас есть набор тем, которые мы можем использовать, чтобы отобразить наши сюжеты. Давайте перечислим их и переключимся на другого.

Список тем:

cf.getThemes()

Это должно вывести что -то следующим образом:

['ggplot', 'pearl', 'solar', 'space', 'white', 'polar', 'henanigans']

Мы можем переключить тему для всех будущих диаграмм, просто добавив:

cf.set_config_file(theme="solar")

А теперь, если мы снова отобразим нашу планку, мы получим что -то вроде:

titanic.iplot(kind = "bar", x = "sex", y = "survived")

Барная схема с солнечной темой

Dark Mode, один из моих любимых, но, пожалуйста, проверьте их и дайте мне знать, какой из них ваш любимый.

Поверхностные диаграммы

До сих пор мы отображали потрясающие 2D -диаграммы, но он также поддерживает 3D -диаграммы. Давайте построим несколько 3D -диаграмм, чтобы повеселиться. Следующий сюжет, который мы сделаем 3D -график поверхности, и для этого нам нужно создать некоторые данные, используя панды, как вы видите в следующем:

df = pd.DataFrame({"A": [100, 200, 300, 200, 100], "B": [100, 200, 300, 200, 100], "C": [100, 200, 300, 200, 100]})
df.head()

Вы должны получить что -то вроде:

        A B C
0 100 100 100
1 200 200 200
2 300 300 300
3 200 200 200
4 100 100 100

Теперь давайте бросим это на 3D -диаграмму, используя «поверхностный».

df.iplot(kind = "surface")

Поверхностная диаграмма

Выглядит великолепно! И красочно, давайте изменим цветовую шкалу, чтобы сделать его более привлекательным:

df.iplot(kind = "surface", colorscale = "rdylbu")

Поверхностная диаграмма с пользовательской цветовой шкалой

Красивый! Но это не так, пробовали ли вы взаимодействовать с диаграммой в своем ноутбуке? Вы даже можете повернуть его!

Вывод

Plotly – отличная альтернатива диаграммы для вашего исследования и анализа данных. Как видно, он обеспечивает интерактивные панели панели, которые могут помочь вам лучше определить ваши выбросы и лучше понять ваши данные, пройдя через них. Я, вероятно, не буду использовать сюжет для каждого набора данных, но это очень интересная библиотека, о которой мы должны знать.

Спасибо за чтение!

Если вам нравится история, пожалуйста, не забудьте подписаться на нашу бесплатную рассылку, чтобы мы могли оставаться на связи: https://livecodestream.dev/subscribe

Оригинал: “https://dev.to/livecodestream/interactive-data-visualization-using-plotly-and-python-4oj9”