Панда в двух словах (часть-1)

Добро пожаловать в другой учебник Python. В этом блоге мы узнаем о

Что такое пандас
Установка панды
Что такое dataframe?
Как сделать dataframes?
Операции и манипуляции на DataFrame?

Эта тема устанавливает основу анализа данных с Python.

Что такое панда?

Pandas – это модуль Python в верхней части Numpy. Это один из основных столбов аналитики данных. Он имеет структуры данных высокого уровня. DataFrames – это структуры данных, предоставленные Pands, сопровождающиеся панелью и серией. Немецкие массивы однородны, преодолеть недостаток, Dataframes включены в панды и гетерогенные.

Установка панды

Установка Pandas легко с использованием команды PIP. Предполагая, что у вас уже есть PUP, установленные в вашей системе.

PIP Установить Pandas Установите его на локальную машину.

Что такое dataframe?

Dataframe:

Двумерная структура данных с различными или такими же типами колонн.
DataFrame в Python состоит из:
- Данные
- Показатель
- Колонны
DataFrames может содержать:
- Dataframe.
- Numpy массивы
- Серия Pandas
- CSV-файл
- Словари, списки.

Как сделать dataframe?

Помимо различных данных для создания DataFrame, мы начнем с Numpy Library, а затем обсудите разные входы.

import numpy as np
import pandas as pd

array_1 = np.array([np.arange(10, 15), np.arange(15, 20)])

dataframe_1 = pd.DataFrame(array_1)

print("Value of Array_1: \n", array_1)
print("\nValue of DataFrame_1: \n", dataframe_1)

Выполнить программу. Вы увидите следующий вывод на экране.

Value of Array_1: 
 [[10 11 12 13 14]
 [15 16 17 18 19]]
Value of DataFrame_1: 
     0   1   2   3   4
0  10  11  12  13  14
1  15  16  17  18  19

Когда мы создаем DataFrame с использованием Numpy массивов, Pandas автоматически индексировал строки и столбцы DataFrame. Пожалуйста, обратитесь к снижению ниже. Первый ряд и первый столбец индексируются как 0, а затем увеличиваются на 1 до конца строки или столбца.

Мы также говорим, что PandAS Dataframes тесно связаны с помощью структуры Microsoft Excel, где мы индексируем строки и столбцы со значениями в нем.

То, что мы узнали до сих пор, DF динамически указан Pands. В практических сценариях это вряд ли случается. Вместо динамической индексации мы хотим, определяемые пользователем индексы на DataFrames.

Давайте сделаем это.

import numpy as np
import pandas as pd

index = ['Row1', 'Row2', 'Row3']
columns = ['Col1', 'Col2', 'Col3', 'Col4']

array_1 = np.array([
    (np.arange(11, 15)),
    (np.arange(15, 19)),
    (np.arange(19, 23))])


print("Value of Array_1: \n", array_1)

dataframe_1 = pd.DataFrame(data=array_1, index=index, columns=columns)

print("\nValue of DataFrame_1 is: \n", dataframe_1)

Вот выход, когда вы выполняете вышеуказанную программу.

Value of Array_1: 
 [[11 12 13 14]
 [15 16 17 18]
[19 20 21 22]]
Value of DataFrame_1 is: 
       Col1  Col2  Col3  Col4
Row1    11    12    13    14
Row2    15    16    17    18
Row3    19    20    21    22

На выходе вы можете увидеть имя строки и столбца в выходе данных DataFrame. Обратить внимание на линию портить Dataframe (данные = Array_1 ,,) Отказ

В вышеуказанной линии данные – содержит значение индекса Array_1 – имеет имена строк. Колонны – имеет имена столбцов.

Индекс и Колонка Необязательные параметры для DataFrame, если не указано, то индексирование начинается с «0».

Вы создали DataFrame, если вам нужно найти количество строк и столбцов The DataFrame.

В приведенной выше программе добавьте Печать (dataframe_1.shape) . И Печать (Len (dataframe_1.index)) , чтобы получить количество элементов DataFrame.

В предыдущем примере мы создаем dataframes из navypy массивов. Однако в реальном мире мы редко создаем dataframe, используя numpy acamers напрямую. Файлы CSV или Excel служат введенным в вход в DataFrames.

Наша следующая задача – создать данные DataFrames из файла CSV. У нас уже есть образец файла CSV, загруженного в GitHub. Вы можете скачать его из здесь Отказ

Убедитесь, что вы загружаете файл, где находится ваш сценарий Python.

Файл Customer.csv содержит информацию о клиентах

имя покупателя
Пользовательский ИД
Дата рождения
Пол
Город

from pandas.io.parsers import read_csv

customer_csv_file = 'Customer.csv'

customer_dataframe = read_csv(customer_csv_file, delimiter=';')

print(customer_dataframe)

Мы также можем прочитать CSV из модуля «Импортировать CSV», но мы будем использовать Pandas read_csv Потому что это волшебно преобразует CSV в DataFrame. 1-й ряд импорт read_csv с панды.

Этот файл CSV имеет около 5147 строк, следовательно, мы не печатаем здесь вывод. Но убедитесь, что вы выполняете программу перед продолжением.

Прямо сейчас мы печатаем все элементы DataFrame на экране, но что, если нам нужно распечатать один элемент или индекс DataFrame. Для E.G., если мы хотим распечатать 6 ряд данных dataframe, напишите Печать (Customer_DataFrame.iloc [6]) до предыдущего примера. Это отображает 6 ряд на экране. Но Печать (Customer_DataFrame.iloc [6] [0]) Покажет 0-й столбец индекса 6-й строки I.E. ‘Bikad’ в нашем случае.

Операции и манипуляции на DataFrame

В этом разделе мы рассмотрим предыдущий пример и узнаем еще несколько манипуляций по данным DataFrames.

from pandas.io.parsers import read_csv

customer_csv_file = 'DA_Customer.csv'

customer_dataframe = read_csv(customer_csv_file, delimiter=';')

# Print 6th Row
print(customer_dataframe.iloc[6])

# Print 6th Row and 0th Index of Column
print(customer_dataframe.iloc[6][0])

# Print Top 5 rows
print("\n Top 5 Rows are")
print(customer_dataframe.head(5))

# Print Last 5 Rows
print("\n Last 5 rows are")
print(customer_dataframe.tail(5))

Возьмите взгляд на голову () и хвост (). Глава () Отображает лучшие результаты «n» из DataFrame, тогда как хвост () отображает днище «n» результатов dataframe.

Если вы уже знаете о UNIX, в этом случае вы достаточно знакомы с командами головы и хвоста. Глава () и хвостовые () функции в пандах являются их аналогией.

В настоящее время мы провели очень элементарные операции на DataFrames. Давайте перейдем к группе данных.

Наш файл CSV содержит имя клиента, идентификатор клиента, дата рождения, пол, город.

Мы хотим определить клиентскую базу в каждом из городов. Это удивительно значимо, чтобы понять нашу демографию клиентов.

Перегруппируя данные по городу, то мы знаем: какой город имеет самую высокую клиентскую базу? Какой город обладает наименьшим количеством клиентов?

Эти результаты необходимы для идентификации, потому что оно дает нам представление о количестве клиентов, распространяемых в городах. В конце концов, он указывает, где мы хотим расширить долю нашей рынка.

Давайте включаем код на наш сценарий Python.

# Group the data by City
city_group = customer_dataframe.groupby('City')
count = 0

for city_name, group in city_group:
    count = count + 1
    print("City", count, city_name)
    print(group)

Мы создаем объект и DataFrame Customer Comply (см. Groupby) в соответствии с «городом».

Примечание: – Город является одним из колонн в файле CSV.

Выполните программу, результаты слишком велики, следовательно, здесь копируется только часть выхода.

City 1 Bangalore
             Customer Name  Customer_ID         DOB Gender       City
3            rowap    419472292  1987-06-14      M  Bangalore
32           zewov    493686428  1986-05-10      F  Bangalore
48           sehob    174535964  1964-02-14      F  Bangalore
75           xohiv    751472877  1997-12-03      F  Bangalore
…. 
…..
[379 rows x 5 columns]

Мы уже много охватывали о DataFrames на пандах. Однако все еще есть много, чтобы покрыть. Этого достаточно для части – 1.

Оставайтесь настроиться на часть-2 учебника.

Проверьте свои знания

Найти форму данных dataframe
Найти длину dataframe

Оригинал: “https://dev.to/akuks/pandas-in-a-nutshell-part-1-ea0”

Читайте ещё по теме: