Рубрики
Без рубрики

Создание исследовательского отчета об анализе данных с Pandas-Profiling

Ученые и аналитики данных обычно тратят некоторое время, чтобы узнать данные, которые они будут работать, o … Tag с Python, DataScience, Analytics, PandasProfiling.

Ученые и аналитики данных обычно тратят некоторое время, чтобы узнать данные, над которыми они будут работать, выполнив исследовательский анализ. Это один из первых шагов в их путешествии, прежде чем сделать дальнейший анализ и прогнозы. Как питонисты, выполняя исследовательский анализ с помощью Pandas, он обязан использовать такие методы, как голова В Опишите В Информация , столбцы , форма , нулевой , value_counts , уникальный , дублированный В corr , и так далее. В дополнение к использованию некоторых библиотек визуализации, таких как Seaborn или Matplotlib, что также является первичным.

Что, если с очень небольшим количеством строк кода, мы смогли получить представление, которое потребовало бы использования всех методов, которые я упоминал ранее? Что если это отчет со встроенной визуализацией? Вау, это сэкономит нам много времени! И на самом деле мы можем это сделать. Надеемся, что Pandas-Profiling может предоставить нам отчет с исследовательскими знаниями.

Pandas-Profiling-это Библиотека Python с открытым исходным кодом Это позволяет нам быстро проводить исследовательский анализ только с несколькими строками кода. Кроме того, как я упоминал ранее, можно использовать эту библиотеку для создания интерактивного отчета, с распределением переменных, помимо других идей, обычно полученных в DataFrames во время исследовательского анализа. Этот отчет может быть сохранен в формате HTML и легко делится с кем угодно. Классно, верно?!

Теперь давайте посмотрим на практике, как это работает.

Установка Pandas-Profiling

Вы можете установить его из командной строки через PIP.

pip install pandas-profiling[notebook]

Создание исследовательского отчета об анализе данных

После его установки перейдите в ноутбук Jupyter и загрузите данные, которые вы хотите изучить как объект DataFrame. Например, мы можем использовать набор данных Titanic, но не стесняйтесь использовать нужные данные. Смотрите код ниже.

import pandas as pd

url = 'https://raw.githubusercontent.com/gabrielatrindade/ml-playground/master/projects/titanic/dataset/train.csv'
titanic = pd.read_csv(url)

Тогда давайте импортируем Профилерепорт Класс для создания отчета для DataFrame.

from pandas_profiling import ProfileReport

Теперь мы можем создать отчет.

profile = ProfileReport(titanic, explorative=True,
                        title='Titanic Exploratory Analysis')

profile

Установить Исследование параметр как Истинный Для более глубокого исследования и заглавие .

Мы можем видеть отчет как вывод в ноутбуке Юпитера. Однако, если вы хотите сгенерировать HTML -файл, чтобы поделиться анализом с кем -то, это также возможно. Проверьте код ниже.

profile.to_file('output_titanic_report.html')

Отчет состоит из большого количества информации, ниже я перечислю большинство из них.

  • Обзор: Мы можем увидеть некоторые общие статистики данных, информацию о отчете и предупреждениях, которые показывают понимание, которые могут сильно повлиять на анализ, такие как большое количество нулевых значений в переменной, дублированных рядов и высокая корреляция между переменными.
  • Переменные: состоит из описательной и квантильной статистической информации для каждой переменной. Кроме того, можно увидеть гистограмму и общие и экстремальные значения переменной, в случае непрерывных переменных, а также круговую диаграмму и частоту каждого значения для категориальных данных.
  • Взаимодействия: позволяет нам видеть взаимосвязь между двумя переменными через визуализацию графика рассеяния.
  • Корреляции: Показывает тепловую карту Пирсона, Спирмена, Кендалла и Матрицы Корреляции Фика.
  • Отсутствующие значения: Через гистограмму или визуализацию матрицы можно увидеть недостающие значения для каждой переменной.
  • Образец: Первые 10 рядов и последние 10 рядов напечатаны.
  • Дубликаты рядов: показывает дублированные ряды.

На изображении ниже вы можете увидеть, как оно выглядит.

Пандас-профилирующие ограничения

Одним из ограничений, которое я мог видеть в Pandas-Profiling, является то, что оно применяется к крупным наборам данных, потому что, поскольку размер набора данных увеличивается, время генерации отчетов значительно увеличивается.

Одним из способов решения этой проблемы является создание отчета из выборки набора данных. В этом случае, если вы выбираете несколько строк, важно убедиться, что они являются репрезентативными для всех данных, которые у вас есть, или вы также можете выбрать переменные, которые вы хотите изучить.

Другим способом решения этой проблемы является использование минимального режима (представленного в версии профилирования Pandas 2.4). Это генерирует упрощенный отчет, занимая меньше времени, чем полный.

profile = ProfileReport(titanic, minimal=True,
                        title='Titanic Exploratory Analysis')

Вывод

Я показал вам, как легко мы можем получить исследовательский отчет об анализе данных, используя библиотеку Pandas-Profiling. С помощью нескольких строк кода мы можем создать интерактивный отчет и создать для него файл HTML. Профилерепорт Класс может сэкономить много работы на этапе знания данных и получения некоторого понимания этого.

Надеюсь, это может быть полезно для вас! Увидимся в следующий раз!

Оригинал: “https://dev.to/gtrindadi/creating-an-exploratory-data-analysis-report-with-pandas-profiling-n4f”