Рубрики
Без рубрики

Пандас -профилирование. П?)

Одна из наиболее важных аксиомов в науке о данных, с которыми я сталкивался в своем обширном и тщательном J … Tags DataScience, Python, Pandas, Eda.

Одной из самых важных аксиомов в науке о данных, с которыми я сталкивался в своем обширном и тщательном путешествии, является идея, которая 1 x Анкет Нет, нет, подожди …

На самом деле это идея, что хорошие функции создают хорошие модели. Без четкого понимания основных структур и взаимодействий в рамках ваших данных (или их отсутствия) вы не можете надеяться создать значимую интерпретацию рассматриваемой информации, и, таким образом, не может манипулировать или создавать значимые функции для вашей модели. Это движущая сила качества Eda Исследовательский анализ данных .

Учитывая неотъемлемый характер EDA в отношении процесса науки о данных и эффективного моделирования, важно, чтобы она была сделана хорошо. Первоначальный подход к большинству проектов, как правило, начинается с тех же методов (проницательные диапазоны функций, поиск недостающей информации, в поисках того, сколько различных значений может содержать функцию и т. Д.) И может быть сделано почти полностью с пандами. Так какая проблема?

В то время как Панды полностью способны, это может быть громоздким. Повторение одних и тех же функций снова и снова, независимо от их простоты, становится более утомительным и трудоемким, поскольку ваши данные становятся больше и более сложными. Каждое действие, как правило, требует отдельных строк кода, что может стоить вам секунды, даже минут вашего времени. Абсолютно возмутительно. С профилированием Pandas вы можете выполнить большую часть своего рудиментарного анализа одной линией:

df.profile_report()

Эта скромная команда вынесет прекрасный отчет, который аккуратно отвечает на многие основные вопросы, которые вы обычно имели бы относительно данного набора данных, и может даже выходить в формате HTML!

В отчете включены:

  • Основы : type, уникальные значения, отсутствующие значения
  • Квантильная статистика : Минимальное значение, Q1, медиана, Q3, максимум, диапазон, межквартильный диапазон
  • Описательная статистика : Среднее, мод, стандартное отклонение, сумма, медианное абсолютное отклонение, коэффициент вариации, куртоз, асимметрия
  • Наиболее частые значения
  • Гистограмма
  • Корреляции : Спирмен и Пирсон матрицы

Другая интересная особенность заключается в том, что отчет автоматически обнаруживает и отбрасывает функции, которые он интерпретирует как незначительно влиятельные.

Это может быть или не быть надежным или даже желательным в зависимости от характера ваших данных, но потенциально полезно для выявления определенных функций, которые могут быть более или менее избыточными или не содержать информации.

Каждая из этих функций имеет ряд более продвинутых параметров, которые вы можете изменить, когда вы называете Pandas-Profiling для создания отчета, и в пределах самого отчета многие функции являются интерактивными. Например, в примере приведенного выше корреляционной матрицы вы можете увидеть, что различные меры корреляции можно просматривать на отдельных вкладках.

Для более полного взгляда на различные параметры, а также исходный код, стоящие за выходами, найденными в отчете, вы можете проверить GitHub Для профилирования пандов.

В конце концов, это просто инструмент удобства, предназначенный для того, чтобы помочь пользователю быстро и эффективно оценить данные с первого взгляда. Это никоим образом не является заменой для дальнейшего исследования и анализа, но может быть полезной в сбережении времени и обеспечении более быстрого, хотя и несколько мелкого понимания характера набора данных.

Вот полный отчет, выбранный в этом блоге

Оригинал: “https://dev.to/blau/pandas-profiling-aiding-productivity-python-ppap-p-5g55”