Ученые и аналитики данных обычно тратят некоторое время, чтобы узнать данные, над которыми они будут работать, выполнив исследовательский анализ. Это один из первых шагов в их путешествии, прежде чем сделать дальнейший анализ и прогнозы. Как питонисты, выполняя исследовательский анализ с помощью Pandas, он обязан использовать такие методы, как голова
В Опишите
В Информация
, столбцы
, форма
, нулевой
, value_counts
, уникальный
, дублированный
В corr
, и так далее. В дополнение к использованию некоторых библиотек визуализации, таких как Seaborn или Matplotlib, что также является первичным.
Что, если с очень небольшим количеством строк кода, мы смогли получить представление, которое потребовало бы использования всех методов, которые я упоминал ранее? Что если это отчет со встроенной визуализацией? Вау, это сэкономит нам много времени! И на самом деле мы можем это сделать. Надеемся, что Pandas-Profiling может предоставить нам отчет с исследовательскими знаниями.
Pandas-Profiling-это Библиотека Python с открытым исходным кодом Это позволяет нам быстро проводить исследовательский анализ только с несколькими строками кода. Кроме того, как я упоминал ранее, можно использовать эту библиотеку для создания интерактивного отчета, с распределением переменных, помимо других идей, обычно полученных в DataFrames во время исследовательского анализа. Этот отчет может быть сохранен в формате HTML и легко делится с кем угодно. Классно, верно?!
Теперь давайте посмотрим на практике, как это работает.
Установка Pandas-Profiling
Вы можете установить его из командной строки через PIP.
pip install pandas-profiling[notebook]
Создание исследовательского отчета об анализе данных
После его установки перейдите в ноутбук Jupyter и загрузите данные, которые вы хотите изучить как объект DataFrame. Например, мы можем использовать набор данных Titanic, но не стесняйтесь использовать нужные данные. Смотрите код ниже.
import pandas as pd url = 'https://raw.githubusercontent.com/gabrielatrindade/ml-playground/master/projects/titanic/dataset/train.csv' titanic = pd.read_csv(url)
Тогда давайте импортируем Профилерепорт
Класс для создания отчета для DataFrame.
from pandas_profiling import ProfileReport
Теперь мы можем создать отчет.
profile = ProfileReport(titanic, explorative=True, title='Titanic Exploratory Analysis') profile
Установить Исследование
параметр как Истинный
Для более глубокого исследования и заглавие
.
Мы можем видеть отчет как вывод в ноутбуке Юпитера. Однако, если вы хотите сгенерировать HTML -файл, чтобы поделиться анализом с кем -то, это также возможно. Проверьте код ниже.
profile.to_file('output_titanic_report.html')
Отчет состоит из большого количества информации, ниже я перечислю большинство из них.
- Обзор: Мы можем увидеть некоторые общие статистики данных, информацию о отчете и предупреждениях, которые показывают понимание, которые могут сильно повлиять на анализ, такие как большое количество нулевых значений в переменной, дублированных рядов и высокая корреляция между переменными.
- Переменные: состоит из описательной и квантильной статистической информации для каждой переменной. Кроме того, можно увидеть гистограмму и общие и экстремальные значения переменной, в случае непрерывных переменных, а также круговую диаграмму и частоту каждого значения для категориальных данных.
- Взаимодействия: позволяет нам видеть взаимосвязь между двумя переменными через визуализацию графика рассеяния.
- Корреляции: Показывает тепловую карту Пирсона, Спирмена, Кендалла и Матрицы Корреляции Фика.
- Отсутствующие значения: Через гистограмму или визуализацию матрицы можно увидеть недостающие значения для каждой переменной.
- Образец: Первые 10 рядов и последние 10 рядов напечатаны.
- Дубликаты рядов: показывает дублированные ряды.
На изображении ниже вы можете увидеть, как оно выглядит.
Пандас-профилирующие ограничения
Одним из ограничений, которое я мог видеть в Pandas-Profiling, является то, что оно применяется к крупным наборам данных, потому что, поскольку размер набора данных увеличивается, время генерации отчетов значительно увеличивается.
Одним из способов решения этой проблемы является создание отчета из выборки набора данных. В этом случае, если вы выбираете несколько строк, важно убедиться, что они являются репрезентативными для всех данных, которые у вас есть, или вы также можете выбрать переменные, которые вы хотите изучить.
Другим способом решения этой проблемы является использование минимального режима (представленного в версии профилирования Pandas 2.4). Это генерирует упрощенный отчет, занимая меньше времени, чем полный.
profile = ProfileReport(titanic, minimal=True, title='Titanic Exploratory Analysis')
Вывод
Я показал вам, как легко мы можем получить исследовательский отчет об анализе данных, используя библиотеку Pandas-Profiling. С помощью нескольких строк кода мы можем создать интерактивный отчет и создать для него файл HTML. Профилерепорт
Класс может сэкономить много работы на этапе знания данных и получения некоторого понимания этого.
Надеюсь, это может быть полезно для вас! Увидимся в следующий раз!
Оригинал: “https://dev.to/gtrindadi/creating-an-exploratory-data-analysis-report-with-pandas-profiling-n4f”