Панды 101 - Pt. II: практика с DataFrames

Для начала, как обычно, хранилище со всеми записниками этой серии из трех частей о Пандах здесь:

https://github.com/hugoestradas/Pandas_101

В моей предыдущей лекции я показал вам основы двух основных структур данных библиотеки Pandas: серии и DataFrames.

Давайте на данный момент сосредоточимся на DataFrames.

1) Основные методы панд

Я начну с создания нашего фиктивного DataFrame для этого раздела:

В лекции пт. Я переименовал заголовок столбца DataFrame, но есть и другие способы сделать это.

Вы можете переименовать свои заголовок, используя другой список:

Если вы хотите сохранить название заголовков столбцов, но хотели бы заменить некоторые текстовые форматы, такие как специальные символы или пространства между именами, вы можете использовать функцию «str.replace ()»:

По умолчанию DataFrame имеет числовой индекс. Вы можете изменить его в соответствии с вашими потребностями:

Если просто случится, вам нужно отредактировать всю DataFrame, с функцией Apply и Lambda (подробнее об этом здесь: https://dev.to/hugoestradas/5-cool-python-tricks-4gcl) Вы можете отредактировать всю информацию в DataFrame в соответствии с моими потребностями, например, добавить вдвое больше значения «col Three» в столбец «col two»:

Если вам нужно удалить запись из DataFrame, пригодится, чтобы иметь хороший определенный индекс при использовании функции Drop ():

Как ученый для данных, вы можете создать копии вашего отдела данных:

Вы можете сохранить определенные данные в DataFrame, используя .loc С помощью некоторых операторов вы можете достичь этого:

2) Многоиндексирование

Допустим, вы читаете книгу с большим количеством глав, в индексе, который вы смотрите на название, которое приводит вас к конкретной странице или главе, которую вы можете искать, в Pandas индекс это очень много. Индекс работает как адрес, так как можно получить доступ к любой точке данных в рамках DataFrame или Series.

Для этого раздела мне понадобится более крупный и более сложный данных Data Frame, который я собираюсь создать из файла .csv (который вы можете найти здесь: https://www.kaggle.com/mokosan/lord-of- The Ring-Character-Data/Download):

Поскольку я использую Azure DataBricks, я заряжаю файл в систему DBFS, но вам, возможно, не нужно это делать (в зависимости от того, какой инструмент, похожий на Юпитер, вы используете).

Если вы хотите узнать больше о своем DataFrame просто использовать “.info ()” или если вы хотите взглянуть на него, используйте “.head ()”:

Мультиндекс-это как многоуровневый индекс или иерархический индекс, который позволяет вам иметь несколько столбцов, действующих в качестве идентификатора строки, в то же время имея каждый столбец индекса, связанный с другим через отношения родителей/ребенка.

Теперь, чтобы начать это упражнение сначала, мне нужно получить индексную метку исходного диапазона данных, мы можем использовать этот код:

Результат этого вывода: «Frozenlist», представляет собой специфическую конструкцию Pandas, используемая для показа индексной метки (ы) DataFrame. Здесь мы видим значение «нет», так как это значение по умолчанию индекса DataFrame.

Чтобы создать мультиндекс с исходным DataFrame, все, что нам нужно сделать, это передать список столбцов в функцию Pandas .set_index () как это:

Вы можете видеть, что новый флажок Data, называемый «Multiindex», был организован, так что теперь есть четыре столбца, которые составляют индекс. Мы можем проверить это, посмотрев на имена индексов еще раз:

Предыдущее значение «Нет» было заменено именами четырех столбцов, которые мы назначили нашим новым индексом. Каждое значение индекса в регулярном, неизменном диапазоне данных будет просто числом от 0 до 730 (потому что DataFrame имеет 731 строки). Чтобы показать вам, что каждое значение индекса в нашем недавно созданном: MultiIndex », мы можем использовать эту строку кода:

При создании DataFrame с помощью мультиндекса, обязательно добавьте его к концу строки кода, как это:

3) Выберите столбцы по типу данных

Для этого раздела я собираюсь использовать другой набор данных (который вы можете найти в папке «Data»):

Давайте начнем с проверки всех типов данных DataFrame:

Если вы заинтересованы исключительно в цифровых столбцах, используйте метод “select_dtypes”:

Или … может быть, противоположность этому:

Вы даже можете быть более конкретными, создав список каждого типа данных, который вам интересно, в DataFrame:

4) Уменьшите размер DataFrame

DataFrames Pandas предназначены для того, чтобы вписаться в память, и иногда необходимо уменьшить размер диапазона данных, чтобы плавно работать с ним.

Начнем с получения текущего размера DataFrame:

В настоящее время он использует 30,4 КБ.

Это очень маленький флажок данных, но если только это произойдет, вы испытываете проблемы с производительностью, или вы не можете прочитать DataFrame, это шаги, которые следует следовать, чтобы уменьшить размер DataFrame.

Сначала давайте сократим только те столбцы, которые вам действительно нужно работать, вы можете сделать это, создав их список:

После этого просто воссоздайте DataFrame с указанными вами столбцами, и посмотрите, как он значительно уменьшает его размер (с 30,4 КБ до 13,6BK):

Оригинал: “https://dev.to/hugoestradas/pandas-101-pt-ii-practicing-with-dataframes-d0h”

Читайте ещё по теме: