Автор оригинала: Emma Coffinet.
Если вы изучаете Python, вы, вероятно, слышали о SCI-KIT-KIT-SULL, NUMPY и PANDS. И это все важные библиотеки для изучения. Но для них больше, чем вы, могли изначально понять.
В мире Python есть многочисленные советы и трюки, которые могут помочь вам ускорить ваши задачи в науке о данных, улучшить свой код, а также помочь вам более эффективно написать код.
Поэтому я решил скомпилировать некоторые из самых ценных советов по анализу данных в этой статье для вас.
Профиль данных данных в пандах
Основная роль или цель профилирования состоит в том, чтобы получить четкое понимание данных. И это то, что пакет Python, Pandas Profific, делает. Этот метод простын и быстрый в выполнении данных анализа данных DataFrames в пандах.
Исследуемый процесс анализа данных включает в себя функции PandaS DF.INFO () и DF.describe () как первые шаги. Но вы получаете только обзор базовых данных, которые могут быть не очень полезны, если вы имеете дело с большим набором данных.
Пандас Функция профилирования Также расширяет dataframe pandas с df.profile_report (), который помогает быстро анализировать данные. Он отображает много информации только в одной строке кода, которая также бывает отчета HTML, который интерактивный.
Для набора данных Pandas Profific вычисляет эти статистические данные:
Сделать Pandas Plots более интерактивными
Встроенный сюжет () Функция Panda также является одним из классов данных DataFrame. Тем не менее, эта функция предлагает визуализации, которые не очень интерактивны, и поэтому не очень привлекают внимание для научной аудитории данных.
С другой стороны, легко построить диаграмму с функцией pandas.dataframe.plot (). Вопрос тогда есть, как мы построим интерактивные графики, такие как сюжета, используя Pandas, и не внесенные значительные изменения в код?
Вы можете сделать это с библиотекой запонки, которые связывают мощность сюжета с гибкостью PandaS для быстрого построения.
Вы можете увидеть результат на изображения ниже.
Оба визуализации показывают одни и те же вещи. Первая визуализация представляет собой статический график, а вторая – более интерактивная диаграмма (и она также обеспечивает более подробную информацию, чем первый). Тем не менее, мы получили это без особых изменений в синтаксис.
Волшебные команды
Тег «Магические команды» относится к набору функций в ноутбуках Jupyter. Они создали этот набор функций для решения многих распространенных проблем, которые испытывают стандартные Анализ данных Отказ
Есть два вида магических команд. Во-первых, есть линейные магические магии – те, которые имеют префикс% символов. Они также работают на одной строке ввода.
Вторым видом являются клеточные магические средства – обозначены двойным префиксом %%. Они работают на более чем одной строке ввода. Если вы установите его на 1, вы позвоните в магические функции без необходимости вводить начальные%.
Некоторые из этих команд могут пригодны, когда вы делаете повседневные задачи в анализе данных. Некоторые из них:
% пастибин
Эта функция возвращает URL, а также загружает код в Pastrbin. Pastebin – это сервис для хостинга контента в Интернете, где можно хранить простой текст (например, фрагменты исходного кода), а затем делиться URL с другими людьми.
На самом деле, GitHub Gist очень похож на пастибин, но имеет контроль версий.
% matplotlib ноутбук
Вы можете использовать эту встроенную функцию для рендеринга статических участков MATPLOTLIB в ноутбуках Jupyter. Вы должны попытаться заменить встроенную часть ноутбуком. Это позволит вам быстро использовать и масштабировать сюжеты.
Но убедитесь, что вы вызываете функцию, прежде чем начать импортировать библиотеку MATPLOTLIB.
%запустить
Вы можете использовать эту функцию для запуска сценария Python в ноутбуке.
%% writefile.
Эта функция записывает содержимое ячейки в файл. Затем вы пишете код в другой файл с именем foo.py, прежде чем сохранить его в текущий каталог.
%%латекс
Эта функция делает содержимое ячейки как латекс. Это пригодится при написании математических уравнений и формул в клетке.
Найти и удалить ошибки
Функция, известная как Интерактивный отладчик это еще одна волшебная особенность. Однако для этой статьи она имеет другую категорию самостоятельно.
Если вы используете кодовую ячейку и получите исключение, введите% отладки под новую строку, а затем запустите ее. Это откроет среду для интерактивной отладки, которая возвращает вас к точке, где произошло исключение.
Вы также можете проверить значения различных переменных, которые они присваивали в программу и, в то же время, выполняют там операции. После этого, если вы хотите выйти из отладчика, нажмите Q.
Используйте опцию «I» при запуске скриптов Python
Один из способов запускает сценарий Python из командной строки с Hello.py. Но если вы добавите A -I и запустите один и тот же сценарий Python, (python -i hello.py), вы получаете больше преимуществ. Как?
Прежде всего, после того, как вы доберетесь до Конец программы Python не закрывает переводчика. Это означает, что мы можем проверить значения различных переменных и насколько правильны функции, определенные в программе.
Во-вторых, тогда легко вызвать отладчик Python, особенно поскольку переводчик все еще доступен:
- Импорт PDB.
- PDB.PM ()
Отсюда мы можем быстро добраться до точки, где произошло исключение, а затем работать над кодом.
Удалить и восстановить
Так что вы делаете, когда вы ошибаетесь удалите одну клетку в ноутбуке Jupyter? К счастью, есть ярлык для отмены этого действия.
Вы можете восстановить или отменить удаленное содержимое, ударяя CTRL/CMD + Z.
Если вы удалили целую ячейку, которую вы хотите восстановить, нажмите ESC + Z, или редактируйте> Удалить клетки удаления.
Заключение
Эта статья поделилась некоторыми советами для повышения ваших навыков анализа данных с Python. Эти хаки должны пригодиться для вас в какой-то момент в вашем пути анализа данных Python.