Pandas Profific в Python

Автор оригинала: Pankaj Kumar.

Позвольте мне дать вам инструмент настолько сильный, это изменит способ, которым вы начинаете анализировать ваши наборы данных – Pandas Profific Отказ Больше не нужно найти способы описать ваш набор данных, используя среднее и Макс () и мин () Функции.

Что такое профилирование Pandas?

В Python, Пандас Библиотека профилирования содержит метод под названием ProfileReport (), который производит простой Рамка данных входной отчет.

Библиотека PandaS_Profiling состоит из следующей информации:

Обзор данных DataFrame,
Атрибуты, которые указаны DataFrame,
Атрибуты ассоциации (корреляция Пирсона и корреляция Spearman), а также
Исследование датафарама.

Основной синтаксис библиотеки PandaS_Profiling

import pandas as pd
import pandas_profiling

df = pd.read_csv(#file location)
pandas_profiling.ProfileReport(df, **kwargs)

Работа с профилированием Pandas

Чтобы начать работу с модулем PandaS_Profiling, давайте получим набор данных:

!wget "https://archive.ics.uci.edu/ml/machine-learning-databases/00528/dataset.csv"

Используемые данные были получены из GIS и спутниковой информации, а также от информации, собранной из природных запасов, которые были подготовлены к оценке воздействия на окружающую среду (ОВОС) для двух запланированных дорожных проектов (Road A и Road B) в Польше.

Эти доклады в основном использовались для сбора информации о размере амфибийской популяции в каждом из 189 участков вхождения.

Используя модуль профилирования Pandas

Давайте использовать Pandas, чтобы прочитать файл CSV, который мы только что скачали:

data = pd.read_csv("dataset.csv",delimiter = ";")

Нам нужно импортировать пакет ProfileReport :

from pandas_profiling import ProfileReport
ProfileReport(data)

Функция генерирует отчеты о профиле от Pandas DataFrame. Функция Pandas df.describe () отличная, но немного базовая для серьезных исследовательских данных анализа данных.

pandas_profiling Модуль расширяет панды DataFrame с DF.Profile_Report () для анализа быстрого данных.

Для каждого столбца следующая статистика – Если это уместно для типа столбца – Представлены в интерактивном отчете HTML:

Тип вывода : Обнаружение типов столбцов в кадре данных.
Основы : введите, уникальные значения, отсутствующие значения
Критильная статистика Как минимальное значение, Q1, Median, Q3, максимальный, диапазон, межступный диапазон
Описательная статистика Как означаю, режим, стандартное отклонение сумма, среднее абсолютное отклонение, коэффициент вариации, куртс, асимметрии
Наиболее частые значения
Гистограмма
Корреляции Выделение высокоорганированных переменных, Spearman, Pearson и Kendall Matrices
Отсутствующие значения Матрица , счет, HeatMap и дендрограмма отсутствующих ценностей
Текстовый анализ узнает о категориях (прописные, пространство), скрипты (латинские, кириллицы) и блоки (ASCII) текстовых данных.
Анализ файла и изображения Извлечь размеры файлов, даты создания и размеры и сканирование для усеченных изображений или те, которые содержат информацию EXIF.

1. Опишите набор данных

Это так же, как команда data.describe :

Он также дает нам типы переменных и подробную информацию о них, включая описательные статистические данные, которые суммируют центральную тенденцию, дисперсию и форму распределения набора данных (исключая значения NAN).

Анализируются как числовые и объектные серии, а также наборы столбцов DataFrame из смешанных типов данных. Выход будет варьироваться в зависимости от того, что предоставляется.

2. Корреляция матрицы

У нас также есть корреляционная матрица:

Это похоже на использование функций np.corrcoreaf (x, y) или data.corr (). Panda ‘DataFrame.corr () используется для поиска парной корреляции всех столбцов в DataFrame. Любые значения NA автоматически исключаются. Для любых не цифровых столбцов данных в DataFrame он игнорируется.

3. Взгляд набора данных

И, наконец, у нас есть часть сама набора данных:

Заключение

Как видите, это экономит нам много времени и усилий. Если вам понравилась эта статья, следуйте за мной как автором. Также заблокировали страницу, потому что мы публикуем много отличного контента.