Автор оригинала: FreeCodeCapm Team.
Zhen Liu.
Сначала: предварительная обработка данных
Вы чувствуете себя расстройством, нарушив текущий поток аналитики данных при поиске синтаксиса? Почему ты все еще не помнишь это после того, как посмотрел на это в третий раз ?? Это потому, что вы не практиковали его достаточно, чтобы построить мышечную память еще для этого.
Теперь представьте, что, когда вы кодируете, синтаксис Python и функции просто вылетают от пальцев после ваших аналитических мыслей. Как здорово это! Этот учебник должен помочь вам добраться туда.
Я рекомендую практиковать этот сценарий каждое утро в течение 10 минут и повторять его в течение недели. Это как делать несколько маленьких хрустов в день – не для вашего пресса, а для ваших данных науки о данных. Постепенно вы заметите улучшение эффективности программирования аналитики данных после этого повторного обучения.
Для начала моей «тренировки на науке данных», в этом руководстве мы будем практиковать наиболее распространенный синтаксис для Предварительная обработка данных как разминка;)
Contents:
0 . Read, View and Save data1 . Table's Dimension and Data Types2 . Basic Column Manipulation3 . Null Values: View, Delete and Impute4 . Data Deduplication
0. Прочитайте, просмотр и сохранение данных
Сначала загрузите библиотеки для наших упражнений:
Теперь мы прочитаем данные с моего репозитория GitHUB. Я скачал данные из Zillow Отказ
И результаты выглядят так:
Сохранение файла – это dataframe.to_csv (). Если вы не хотите сохранить номер индекса, используйте dataframe.to_csv ().
1 Таблица измерений и типы данных
1.1 Размерность
Сколько строк и столбцов в этих данных?
1.2 Типы данных
Каковы типы данных ваших данных и сколько столбцов являются числовыми?
Выход первых нескольких типов данных столбцов:
Если вы хотите быть более конкретным в ваших данных, используйте SELECT_DTYPES (), чтобы включить или исключить тип данных. Вопрос: Если я хочу посмотреть только на данные 2018 года, как мне это получить?
2. Основные манипулирования столбцами
2.1 Подмножество данных по столбцам
Выберите столбцы по типам данных:
Например, если вы хотите только плавать и целочисленные столбцы:
Выберите и опустить столбцы по имена:
2.2 Переименовать столбцы
Как мне переименовать колонны, если я им не люблю? Например, измените «состояние» на «STATE_»; «Город» до «City_»:
3. Нулевые значения: вид, удалить и вменять
3.1 Сколько рядов и столбцов имеют нулевые значения?
Выходы isnull.any () против isnull.sum ():
Выберите данные, которые не являются NULL в одном столбце, например, «Metro» не NULL.
3.2 Выберите строки, которые не нулевые для фиксированного набора столбцов
Выберите подмножество данных, которые не имеют NULL после 2000 года:
Если вы хотите выбрать данные в июле, вам нужно найти столбцы, содержащие «-07». Чтобы увидеть, содержит ли строка подстроки, вы можете использовать подстроку в строке, и она выводила true или false.
3.3 Строобразование подмножества нулевыми значениями
Выберите строки, в которых мы хотим иметь не менее 50 значений NA NA, но не нужно быть конкретным в столбцах:
3.4 Падение и меры пропущенных недостатков
Заполните NA или Impite NA:
Используйте свое собственное состояние, чтобы заполнить с помощью функции, где:
4. Дедупликация данных
Мы должны убедиться, что нет дублированных строк, прежде чем мы не составляем данные или присоединиться к ним.
Мы хотим увидеть, есть ли дублированные города/регионы. Нам нужно решить, какой уникальный идентификатор (город, регион) мы хотим использовать в анализе.
Опустить дублированные значения.
Сочетание «Countyname» и «Sizerank» уже уникальна. Таким образом, мы просто используем столбцы, чтобы продемонстрировать синтаксис Drop_Duplied.
Вот это для первой части моей серии по созданию мышечной памяти для науки о данных в Python. Полный скрипт можно найти здесь Отказ
Следите за обновлениями! Мой следующий учебник покажет вам, как «скрутить мышцы науки о данных для нарезки и выравнивания данных.
Следуй за мной и дай мне несколько хлопов, если вы найдете это полезно:)
Пока вы работаете на Python, может быть, вас интересует мою предыдущую статью:
Изучите искру для аналитики больших данных в 15 минутах хода! Я гарантирую вам, что этот короткий учебник сэкономит вам тонну от чтения длинных документов. Готов к … atsdatascience.com.