Рубрики
Без рубрики

Pandas Profific в Python

Позвольте мне дать вам инструмент настолько сильным, это изменит способ, которым вы начинаете анализировать ваши наборы данных – Pandas Profific. Больше не нужно найти способы описать ваш набор данных, используя функции среднего и MAX () и MIN ().

Автор оригинала: Pankaj Kumar.

Позвольте мне дать вам инструмент настолько сильный, это изменит способ, которым вы начинаете анализировать ваши наборы данных – Pandas Profific Отказ Больше не нужно найти способы описать ваш набор данных, используя среднее и Макс () и мин () Функции.

Что такое профилирование Pandas?

В Python, Пандас Библиотека профилирования содержит метод под названием ProfileReport (), который производит простой Рамка данных входной отчет.

Библиотека PandaS_Profiling состоит из следующей информации:

  • Обзор данных DataFrame,
  • Атрибуты, которые указаны DataFrame,
  • Атрибуты ассоциации (корреляция Пирсона и корреляция Spearman), а также
  • Исследование датафарама.

Основной синтаксис библиотеки PandaS_Profiling

import pandas as pd
import pandas_profiling

df = pd.read_csv(#file location)
pandas_profiling.ProfileReport(df, **kwargs)

Работа с профилированием Pandas

Чтобы начать работу с модулем PandaS_Profiling, давайте получим набор данных:

!wget "https://archive.ics.uci.edu/ml/machine-learning-databases/00528/dataset.csv"

Используемые данные были получены из GIS и спутниковой информации, а также от информации, собранной из природных запасов, которые были подготовлены к оценке воздействия на окружающую среду (ОВОС) для двух запланированных дорожных проектов (Road A и Road B) в Польше.

Эти доклады в основном использовались для сбора информации о размере амфибийской популяции в каждом из 189 участков вхождения.

Используя модуль профилирования Pandas

Давайте использовать Pandas, чтобы прочитать файл CSV, который мы только что скачали:

data = pd.read_csv("dataset.csv",delimiter = ";")

Нам нужно импортировать пакет ProfileReport :

from pandas_profiling import ProfileReport
ProfileReport(data)

Функция генерирует отчеты о профиле от Pandas DataFrame. Функция Pandas df.describe () отличная, но немного базовая для серьезных исследовательских данных анализа данных.

pandas_profiling Модуль расширяет панды DataFrame с DF.Profile_Report () для анализа быстрого данных.

Для каждого столбца следующая статистика – Если это уместно для типа столбца – Представлены в интерактивном отчете HTML:

  • Тип вывода : Обнаружение типов столбцов в кадре данных.
  • Основы : введите, уникальные значения, отсутствующие значения
  • Критильная статистика Как минимальное значение, Q1, Median, Q3, максимальный, диапазон, межступный диапазон
  • Описательная статистика Как означаю, режим, стандартное отклонение сумма, среднее абсолютное отклонение, коэффициент вариации, куртс, асимметрии
  • Наиболее частые значения
  • Гистограмма
  • Корреляции Выделение высокоорганированных переменных, Spearman, Pearson и Kendall Matrices
  • Отсутствующие значения Матрица , счет, HeatMap и дендрограмма отсутствующих ценностей
  • Текстовый анализ узнает о категориях (прописные, пространство), скрипты (латинские, кириллицы) и блоки (ASCII) текстовых данных.
  • Анализ файла и изображения Извлечь размеры файлов, даты создания и размеры и сканирование для усеченных изображений или те, которые содержат информацию EXIF.

1. Опишите набор данных

Это так же, как команда data.describe :

Он также дает нам типы переменных и подробную информацию о них, включая описательные статистические данные, которые суммируют центральную тенденцию, дисперсию и форму распределения набора данных (исключая значения NAN).

Анализируются как числовые и объектные серии, а также наборы столбцов DataFrame из смешанных типов данных. Выход будет варьироваться в зависимости от того, что предоставляется.

2. Корреляция матрицы

У нас также есть корреляционная матрица:

Это похоже на использование функций np.corrcoreaf (x, y) или data.corr (). Panda ‘DataFrame.corr () используется для поиска парной корреляции всех столбцов в DataFrame. Любые значения NA автоматически исключаются. Для любых не цифровых столбцов данных в DataFrame он игнорируется.

3. Взгляд набора данных

И, наконец, у нас есть часть сама набора данных:

Заключение

Как видите, это экономит нам много времени и усилий. Если вам понравилась эта статья, следуйте за мной как автором. Также заблокировали страницу, потому что мы публикуем много отличного контента.