Python Pandas за 5 минут - часть 2

Python Pandas за 5 минут – часть 2

Варианты использования открывают больше функциональных возможностей

В последнем блоге я надеюсь, что продал вам идею о том, что Pandas – это удивительная библиотека для быстрого и простого анализа данных, и его намного проще в использовании, чем вы думали. Если вы не читали мой первый блог о Pandas, пожалуйста, пройдите через него, прежде чем двигаться вперед.

Ой !! Мы пропустили некоторые данные

В последнем блоге мы видели базовые операции DataFrame с использованием образцов данных о продажах. Давайте предположим, что вы являетесь менеджером, ведущим команду по продажам, и вы все были довольны траекторией продаж и поворотным представлением данных, которые вы научились создавать из нашего последнего блога.

import numpy as np
df.pivot\_table(index=["Country"], 
               columns=["Region"], 
               values=["Quantity"], 
               aggfunc=[np.sum])

Простая сводная таблица

Вот когда вы понимаете, что у вас есть Пропущенные данные о продажах конкретного квартала Потому что он был потерян в одной из электронных таблиц. Теперь, что ты делаешь? У вас уже есть отчет, готовый к работе. Как вы можете включить новые данные в текущее представление о повороте без серьезных изменений?

Если вы видите, таблица Pivot построена с одним DF DataFrame, каким-то образом, если мы сможем найти способ подавать наши новые данные в DF, то мы можем просто повторно запустить код Pivot и вуаля !! Мы получим отчет снова.

Итак, вот шаги, за которыми мы будем следовать,

1. Загрузите новые данные электронных таблиц в новый флажок DataFrame

df2 = pd.read\_csv("data/Pandas - Q4 Sales.csv")
df2.head()

2. Объединить два DataFrame в один объект DF,

Используя конг

Панды Concat Метод объединяет содержимое нескольких данных данных и создает новый флажок данных.

Парам оси метода позволяет соединять данные вдоль строк или столбцов

result\_df = pd.concat([df, df2], axis=0, sort=False)
# axis = 0, append along rows, 
# axis = 1, append along cols

result\_df.tail() # tail is similar to head returns last 10 entries

Используя добавлять

В отличие от CONCAT, метод добавления добавляет данные в существующую DataFrame вместо создания нового DataFrame. Кроме того, вы можете заметить, что мы не предоставляем здесь ни один параметр оси, поскольку метод добавления только позволяет добавлять новые записи в качестве строк.

result\_df = df.append([df2],sort=False)
result\_df.tail()

Если вы внимательно посмотрите, в обоих случаях рамки данных, которые необходимо объединить, поставляются в виде списка Python [DF1, DF2]. Это подразумевает, что мы можем объединить столько данных данных, сколько хотим

3. Повторно запустить код поворота

pivot = result\_df.pivot\_table(index=["Country"], 
                              columns=["Region"], 
                              values="Quantity")

Диаграммы лучше, чем таблицы

У вас есть пара часов для вашей последней встречи. Ваша презентация конкретна, ваши продажи хороши, но все же чего -то не хватает. Графики. Для управленческого человека, который так привык к таблицам электронных таблиц, оставление их позади – не очень хорошая идея. Но у нас есть короткое время, чтобы вернуться к электронным таблицам, не так ли? Не беспокойтесь, Pandas поставляется со встроенной структурой диаграммы, которая позволяет рисовать графики нашего репрезентации нашего поворота

Совершенство

Как человек, который был известен вашим совершенством, в вас не очень хорошо. Одно из табличных представлений, которое вы создали, имеет ненужную информацию, которая не интересуется вашим управлением, и у нескольких столбцов есть имена, которые используются внутри вашей компании и не будут звонить в руководство.

Не волнуйся, мы можем сделать это Все в одном выстреле И довольно быстро. В терминах Pandas мы называем этот метод цепочкой.

Цепочка метода позволяет вам выполнять различное преобразование на одних и тех же данных, не сохраняя промежуточный результат.

Явное лучше, чем неявное, следовательно, давайте Переименовать “всего” до «общих продаж»
Нам не нужна дата покупки только год и четверть
Нам не нужен запрашивающий, продавец, продавец и дата покупки. Итак, давайте брось это.

result\_df.rename({"Total": "Total Sales"}, axis=1)\
         .assign(Quarter=result\_df['Date of Purchase'].dt.quarter, \
                 Year=result\_df['Date of Purchase'].dt.year) \
         .drop(["Requester", "Sales Person", "Date of Purchase"], axis=1).head()

Последняя вещь

С этим наш последний отчет выглядит хорошо, и угадайте что? Ваше руководство не только довольно вашими продажами в этом году, но и взволновано вашей новой найденной любовью к пандам, но и осталось только одну последнюю вещь, вам нужно отправить окончательные данные в качестве CSV обратно в свое руководство. Но не беспокойтесь, у нас есть панда, чтобы сделать это для вас.

result\_df.to\_csv(path\_or\_buf="Export\_Data.csv")

А “Export_data.csv” Файл будет создан в вашем текущем пути, который вы можете с радостью отправить своему руководству в качестве вложения электронной почты.

Когда вы отдыхаете на своем месте, вы хотите автоматизировать эксперимент Pandas, который вы только что провели для будущих отчетов о продажах. К счастью, у вас есть стажер, который присоединяется к вам через пару дней. Это будет отличный проект для него, чтобы забрать его. Что -то во мне говорит, что все будет не так просто, как для вас. который мы увидим в следующем блоге “Что не так с Пандами?”

Блог подталкивал вас к глубокому погружению в панд?

Держать Значок “CLAP” и крикнуть на [_twitter ] ( https://twitter.com/@bhavaniravi ) Анкет _

Следуйте Чтобы следить за обновлениями в будущих блогах.

Предварительный просмотр изображения с заголовком

Оригинал: “https://dev.to/bhavaniravi/python-pandas-in-5-minspart-2-1f2p”