Как создать мышечную память для науки о данных с Python

Zhen Liu.

Сначала: предварительная обработка данных

Вы чувствуете себя расстройством, нарушив текущий поток аналитики данных при поиске синтаксиса? Почему ты все еще не помнишь это после того, как посмотрел на это в третий раз ?? Это потому, что вы не практиковали его достаточно, чтобы построить мышечную память еще для этого.

Теперь представьте, что, когда вы кодируете, синтаксис Python и функции просто вылетают от пальцев после ваших аналитических мыслей. Как здорово это! Этот учебник должен помочь вам добраться туда.

Я рекомендую практиковать этот сценарий каждое утро в течение 10 минут и повторять его в течение недели. Это как делать несколько маленьких хрустов в день – не для вашего пресса, а для ваших данных науки о данных. Постепенно вы заметите улучшение эффективности программирования аналитики данных после этого повторного обучения.

Для начала моей «тренировки на науке данных», в этом руководстве мы будем практиковать наиболее распространенный синтаксис для Предварительная обработка данных как разминка;)

Contents:

0 . Read, View and Save data1 . Table's Dimension and Data Types2 . Basic Column Manipulation3 . Null Values: View, Delete and Impute4 . Data Deduplication

0. Прочитайте, просмотр и сохранение данных

Сначала загрузите библиотеки для наших упражнений:

Теперь мы прочитаем данные с моего репозитория GitHUB. Я скачал данные из Zillow Отказ

И результаты выглядят так:

Сохранение файла – это dataframe.to_csv (). Если вы не хотите сохранить номер индекса, используйте dataframe.to_csv ().

1 Таблица измерений и типы данных

1.1 Размерность

Сколько строк и столбцов в этих данных?

1.2 Типы данных

Каковы типы данных ваших данных и сколько столбцов являются числовыми?

Выход первых нескольких типов данных столбцов:

Если вы хотите быть более конкретным в ваших данных, используйте SELECT_DTYPES (), чтобы включить или исключить тип данных. Вопрос: Если я хочу посмотреть только на данные 2018 года, как мне это получить?

2. Основные манипулирования столбцами

2.1 Подмножество данных по столбцам

Выберите столбцы по типам данных:

Например, если вы хотите только плавать и целочисленные столбцы:

Выберите и опустить столбцы по имена:

2.2 Переименовать столбцы

Как мне переименовать колонны, если я им не люблю? Например, измените «состояние» на «STATE_»; «Город» до «City_»:

3. Нулевые значения: вид, удалить и вменять

3.1 Сколько рядов и столбцов имеют нулевые значения?

Выходы isnull.any () против isnull.sum ():

Выберите данные, которые не являются NULL в одном столбце, например, «Metro» не NULL.

3.2 Выберите строки, которые не нулевые для фиксированного набора столбцов

Выберите подмножество данных, которые не имеют NULL после 2000 года:

Если вы хотите выбрать данные в июле, вам нужно найти столбцы, содержащие «-07». Чтобы увидеть, содержит ли строка подстроки, вы можете использовать подстроку в строке, и она выводила true или false.

3.3 Строобразование подмножества нулевыми значениями

Выберите строки, в которых мы хотим иметь не менее 50 значений NA NA, но не нужно быть конкретным в столбцах:

3.4 Падение и меры пропущенных недостатков

Заполните NA или Impite NA:

Используйте свое собственное состояние, чтобы заполнить с помощью функции, где:

4. Дедупликация данных

Мы должны убедиться, что нет дублированных строк, прежде чем мы не составляем данные или присоединиться к ним.

Мы хотим увидеть, есть ли дублированные города/регионы. Нам нужно решить, какой уникальный идентификатор (город, регион) мы хотим использовать в анализе.

Опустить дублированные значения.

Сочетание «Countyname» и «Sizerank» уже уникальна. Таким образом, мы просто используем столбцы, чтобы продемонстрировать синтаксис Drop_Duplied.

Вот это для первой части моей серии по созданию мышечной памяти для науки о данных в Python. Полный скрипт можно найти здесь Отказ

Следите за обновлениями! Мой следующий учебник покажет вам, как «скрутить мышцы науки о данных для нарезки и выравнивания данных.

Следуй за мной и дай мне несколько хлопов, если вы найдете это полезно:)

Пока вы работаете на Python, может быть, вас интересует мою предыдущую статью:

Изучите искру для аналитики больших данных в 15 минутах хода! Я гарантирую вам, что этот короткий учебник сэкономит вам тонну от чтения длинных документов. Готов к … atsdatascience.com.