Автор оригинала: Pankaj Kumar.
Позвольте мне дать вам инструмент настолько сильный, это изменит способ, которым вы начинаете анализировать ваши наборы данных – Pandas Profific Отказ Больше не нужно найти способы описать ваш набор данных, используя среднее и Макс () и мин () Функции.
Что такое профилирование Pandas?
В Python, Пандас Библиотека профилирования содержит метод под названием ProfileReport (), который производит простой Рамка данных входной отчет.
Библиотека PandaS_Profiling состоит из следующей информации:
- Обзор данных DataFrame,
- Атрибуты, которые указаны DataFrame,
- Атрибуты ассоциации (корреляция Пирсона и корреляция Spearman), а также
- Исследование датафарама.
Основной синтаксис библиотеки PandaS_Profiling
import pandas as pd import pandas_profiling df = pd.read_csv(#file location) pandas_profiling.ProfileReport(df, **kwargs)
Работа с профилированием Pandas
Чтобы начать работу с модулем PandaS_Profiling, давайте получим набор данных:
!wget "https://archive.ics.uci.edu/ml/machine-learning-databases/00528/dataset.csv"
Используемые данные были получены из GIS и спутниковой информации, а также от информации, собранной из природных запасов, которые были подготовлены к оценке воздействия на окружающую среду (ОВОС) для двух запланированных дорожных проектов (Road A и Road B) в Польше.
Эти доклады в основном использовались для сбора информации о размере амфибийской популяции в каждом из 189 участков вхождения.
Используя модуль профилирования Pandas
Давайте использовать Pandas, чтобы прочитать файл CSV, который мы только что скачали:
data = pd.read_csv("dataset.csv",delimiter = ";")
Нам нужно импортировать пакет ProfileReport :
from pandas_profiling import ProfileReport ProfileReport(data)
Функция генерирует отчеты о профиле от Pandas DataFrame. Функция Pandas df.describe () отличная, но немного базовая для серьезных исследовательских данных анализа данных.
pandas_profiling Модуль расширяет панды DataFrame с DF.Profile_Report () для анализа быстрого данных.
Для каждого столбца следующая статистика – Если это уместно для типа столбца – Представлены в интерактивном отчете HTML:
- Тип вывода : Обнаружение типов столбцов в кадре данных.
- Основы : введите, уникальные значения, отсутствующие значения
- Критильная статистика Как минимальное значение, Q1, Median, Q3, максимальный, диапазон, межступный диапазон
- Описательная статистика Как означаю, режим, стандартное отклонение сумма, среднее абсолютное отклонение, коэффициент вариации, куртс, асимметрии
- Наиболее частые значения
- Гистограмма
- Корреляции Выделение высокоорганированных переменных, Spearman, Pearson и Kendall Matrices
- Отсутствующие значения Матрица , счет, HeatMap и дендрограмма отсутствующих ценностей
- Текстовый анализ узнает о категориях (прописные, пространство), скрипты (латинские, кириллицы) и блоки (ASCII) текстовых данных.
- Анализ файла и изображения Извлечь размеры файлов, даты создания и размеры и сканирование для усеченных изображений или те, которые содержат информацию EXIF.
1. Опишите набор данных
Это так же, как команда data.describe :
Он также дает нам типы переменных и подробную информацию о них, включая описательные статистические данные, которые суммируют центральную тенденцию, дисперсию и форму распределения набора данных (исключая значения NAN).
Анализируются как числовые и объектные серии, а также наборы столбцов DataFrame из смешанных типов данных. Выход будет варьироваться в зависимости от того, что предоставляется.
2. Корреляция матрицы
У нас также есть корреляционная матрица:
Это похоже на использование функций np.corrcoreaf (x, y) или data.corr (). Panda ‘DataFrame.corr () используется для поиска парной корреляции всех столбцов в DataFrame. Любые значения NA автоматически исключаются. Для любых не цифровых столбцов данных в DataFrame он игнорируется.
3. Взгляд набора данных
И, наконец, у нас есть часть сама набора данных:
Заключение
Как видите, это экономит нам много времени и усилий. Если вам понравилась эта статья, следуйте за мной как автором. Также заблокировали страницу, потому что мы публикуем много отличного контента.