Рубрики
Без рубрики

Как повысить навыки анализа данных с Python

Автор оригинала: Emma Coffinet.

Если вы изучаете Python, вы, вероятно, слышали о SCI-KIT-KIT-SULL, NUMPY и PANDS. И это все важные библиотеки для изучения. Но для них больше, чем вы, могли изначально понять.

В мире Python есть многочисленные советы и трюки, которые могут помочь вам ускорить ваши задачи в науке о данных, улучшить свой код, а также помочь вам более эффективно написать код.

Поэтому я решил скомпилировать некоторые из самых ценных советов по анализу данных в этой статье для вас.

Профиль данных данных в пандах

Основная роль или цель профилирования состоит в том, чтобы получить четкое понимание данных. И это то, что пакет Python, Pandas Profific, делает. Этот метод простын и быстрый в выполнении данных анализа данных DataFrames в пандах.

Исследуемый процесс анализа данных включает в себя функции PandaS DF.INFO () и DF.describe () как первые шаги. Но вы получаете только обзор базовых данных, которые могут быть не очень полезны, если вы имеете дело с большим набором данных.

Пандас Функция профилирования Также расширяет dataframe pandas с df.profile_report (), который помогает быстро анализировать данные. Он отображает много информации только в одной строке кода, которая также бывает отчета HTML, который интерактивный.

Для набора данных Pandas Profific вычисляет эти статистические данные:

Сделать Pandas Plots более интерактивными

Встроенный сюжет () Функция Panda также является одним из классов данных DataFrame. Тем не менее, эта функция предлагает визуализации, которые не очень интерактивны, и поэтому не очень привлекают внимание для научной аудитории данных.

С другой стороны, легко построить диаграмму с функцией pandas.dataframe.plot (). Вопрос тогда есть, как мы построим интерактивные графики, такие как сюжета, используя Pandas, и не внесенные значительные изменения в код?

Вы можете сделать это с библиотекой запонки, которые связывают мощность сюжета с гибкостью PandaS для быстрого построения.

Вы можете увидеть результат на изображения ниже.

Оба визуализации показывают одни и те же вещи. Первая визуализация представляет собой статический график, а вторая – более интерактивная диаграмма (и она также обеспечивает более подробную информацию, чем первый). Тем не менее, мы получили это без особых изменений в синтаксис.

Волшебные команды

Тег «Магические команды» относится к набору функций в ноутбуках Jupyter. Они создали этот набор функций для решения многих распространенных проблем, которые испытывают стандартные Анализ данных Отказ

Есть два вида магических команд. Во-первых, есть линейные магические магии – те, которые имеют префикс% символов. Они также работают на одной строке ввода.

Вторым видом являются клеточные магические средства – обозначены двойным префиксом %%. Они работают на более чем одной строке ввода. Если вы установите его на 1, вы позвоните в магические функции без необходимости вводить начальные%.

Некоторые из этих команд могут пригодны, когда вы делаете повседневные задачи в анализе данных. Некоторые из них:

% пастибин

Эта функция возвращает URL, а также загружает код в Pastrbin. Pastebin – это сервис для хостинга контента в Интернете, где можно хранить простой текст (например, фрагменты исходного кода), а затем делиться URL с другими людьми.

На самом деле, GitHub Gist очень похож на пастибин, но имеет контроль версий.

% matplotlib ноутбук

Вы можете использовать эту встроенную функцию для рендеринга статических участков MATPLOTLIB в ноутбуках Jupyter. Вы должны попытаться заменить встроенную часть ноутбуком. Это позволит вам быстро использовать и масштабировать сюжеты.

Но убедитесь, что вы вызываете функцию, прежде чем начать импортировать библиотеку MATPLOTLIB.

%запустить

Вы можете использовать эту функцию для запуска сценария Python в ноутбуке.

%% writefile.

Эта функция записывает содержимое ячейки в файл. Затем вы пишете код в другой файл с именем foo.py, прежде чем сохранить его в текущий каталог.

%%латекс

Эта функция делает содержимое ячейки как латекс. Это пригодится при написании математических уравнений и формул в клетке.

Найти и удалить ошибки

Функция, известная как Интерактивный отладчик это еще одна волшебная особенность. Однако для этой статьи она имеет другую категорию самостоятельно.

Если вы используете кодовую ячейку и получите исключение, введите% отладки под новую строку, а затем запустите ее. Это откроет среду для интерактивной отладки, которая возвращает вас к точке, где произошло исключение.

Вы также можете проверить значения различных переменных, которые они присваивали в программу и, в то же время, выполняют там операции. После этого, если вы хотите выйти из отладчика, нажмите Q.

Используйте опцию «I» при запуске скриптов Python

Один из способов запускает сценарий Python из командной строки с Hello.py. Но если вы добавите A -I и запустите один и тот же сценарий Python, (python -i hello.py), вы получаете больше преимуществ. Как?

Прежде всего, после того, как вы доберетесь до Конец программы Python не закрывает переводчика. Это означает, что мы можем проверить значения различных переменных и насколько правильны функции, определенные в программе.

Во-вторых, тогда легко вызвать отладчик Python, особенно поскольку переводчик все еще доступен:

  • Импорт PDB.
  • PDB.PM ()

Отсюда мы можем быстро добраться до точки, где произошло исключение, а затем работать над кодом.

Удалить и восстановить

Так что вы делаете, когда вы ошибаетесь удалите одну клетку в ноутбуке Jupyter? К счастью, есть ярлык для отмены этого действия.

Вы можете восстановить или отменить удаленное содержимое, ударяя CTRL/CMD + Z.

Если вы удалили целую ячейку, которую вы хотите восстановить, нажмите ESC + Z, или редактируйте> Удалить клетки удаления.

Заключение

Эта статья поделилась некоторыми советами для повышения ваших навыков анализа данных с Python. Эти хаки должны пригодиться для вас в какой-то момент в вашем пути анализа данных Python.