Python Pandas за 5 минут – часть 2
Варианты использования открывают больше функциональных возможностей
В последнем блоге я надеюсь, что продал вам идею о том, что Pandas – это удивительная библиотека для быстрого и простого анализа данных, и его намного проще в использовании, чем вы думали. Если вы не читали мой первый блог о Pandas, пожалуйста, пройдите через него, прежде чем двигаться вперед.
Ой !! Мы пропустили некоторые данные
В последнем блоге мы видели базовые операции DataFrame с использованием образцов данных о продажах. Давайте предположим, что вы являетесь менеджером, ведущим команду по продажам, и вы все были довольны траекторией продаж и поворотным представлением данных, которые вы научились создавать из нашего последнего блога.
import numpy as np df.pivot\_table(index=["Country"], columns=["Region"], values=["Quantity"], aggfunc=[np.sum])
Простая сводная таблица
Вот когда вы понимаете, что у вас есть Пропущенные данные о продажах конкретного квартала Потому что он был потерян в одной из электронных таблиц. Теперь, что ты делаешь? У вас уже есть отчет, готовый к работе. Как вы можете включить новые данные в текущее представление о повороте без серьезных изменений?
Если вы видите, таблица Pivot построена с одним DF DataFrame, каким-то образом, если мы сможем найти способ подавать наши новые данные в DF, то мы можем просто повторно запустить код Pivot и вуаля !! Мы получим отчет снова.
Итак, вот шаги, за которыми мы будем следовать,
1. Загрузите новые данные электронных таблиц в новый флажок DataFrame
df2 = pd.read\_csv("data/Pandas - Q4 Sales.csv") df2.head()
2. Объединить два DataFrame в один объект DF,
Используя конг
Панды Concat Метод объединяет содержимое нескольких данных данных и создает новый флажок данных.
Парам оси метода позволяет соединять данные вдоль строк или столбцов
result\_df = pd.concat([df, df2], axis=0, sort=False) # axis = 0, append along rows, # axis = 1, append along cols result\_df.tail() # tail is similar to head returns last 10 entries
Используя добавлять
В отличие от CONCAT, метод добавления добавляет данные в существующую DataFrame вместо создания нового DataFrame. Кроме того, вы можете заметить, что мы не предоставляем здесь ни один параметр оси, поскольку метод добавления только позволяет добавлять новые записи в качестве строк.
result\_df = df.append([df2],sort=False) result\_df.tail()
Если вы внимательно посмотрите, в обоих случаях рамки данных, которые необходимо объединить, поставляются в виде списка Python [DF1, DF2]. Это подразумевает, что мы можем объединить столько данных данных, сколько хотим
3. Повторно запустить код поворота
pivot = result\_df.pivot\_table(index=["Country"], columns=["Region"], values="Quantity")
Диаграммы лучше, чем таблицы
У вас есть пара часов для вашей последней встречи. Ваша презентация конкретна, ваши продажи хороши, но все же чего -то не хватает. Графики. Для управленческого человека, который так привык к таблицам электронных таблиц, оставление их позади – не очень хорошая идея. Но у нас есть короткое время, чтобы вернуться к электронным таблицам, не так ли? Не беспокойтесь, Pandas поставляется со встроенной структурой диаграммы, которая позволяет рисовать графики нашего репрезентации нашего поворота
Совершенство
Как человек, который был известен вашим совершенством, в вас не очень хорошо. Одно из табличных представлений, которое вы создали, имеет ненужную информацию, которая не интересуется вашим управлением, и у нескольких столбцов есть имена, которые используются внутри вашей компании и не будут звонить в руководство.
Не волнуйся, мы можем сделать это Все в одном выстреле И довольно быстро. В терминах Pandas мы называем этот метод цепочкой.
Цепочка метода позволяет вам выполнять различное преобразование на одних и тех же данных, не сохраняя промежуточный результат.
- Явное лучше, чем неявное, следовательно, давайте Переименовать “всего” до «общих продаж»
- Нам не нужна дата покупки только год и четверть
- Нам не нужен запрашивающий, продавец, продавец и дата покупки. Итак, давайте брось это.
result\_df.rename({"Total": "Total Sales"}, axis=1)\ .assign(Quarter=result\_df['Date of Purchase'].dt.quarter, \ Year=result\_df['Date of Purchase'].dt.year) \ .drop(["Requester", "Sales Person", "Date of Purchase"], axis=1).head()
Последняя вещь
С этим наш последний отчет выглядит хорошо, и угадайте что? Ваше руководство не только довольно вашими продажами в этом году, но и взволновано вашей новой найденной любовью к пандам, но и осталось только одну последнюю вещь, вам нужно отправить окончательные данные в качестве CSV обратно в свое руководство. Но не беспокойтесь, у нас есть панда, чтобы сделать это для вас.
result\_df.to\_csv(path\_or\_buf="Export\_Data.csv")
А “Export_data.csv” Файл будет создан в вашем текущем пути, который вы можете с радостью отправить своему руководству в качестве вложения электронной почты.
Когда вы отдыхаете на своем месте, вы хотите автоматизировать эксперимент Pandas, который вы только что провели для будущих отчетов о продажах. К счастью, у вас есть стажер, который присоединяется к вам через пару дней. Это будет отличный проект для него, чтобы забрать его. Что -то во мне говорит, что все будет не так просто, как для вас. который мы увидим в следующем блоге “Что не так с Пандами?”
Блог подталкивал вас к глубокому погружению в панд?
Держать Значок “CLAP” и крикнуть на [_twitter ] ( https://twitter.com/@bhavaniravi ) Анкет _
Следуйте Чтобы следить за обновлениями в будущих блогах.
Предварительный просмотр изображения с заголовком
Оригинал: “https://dev.to/bhavaniravi/python-pandas-in-5-minspart-2-1f2p”