Рубрики
Без рубрики

Учебник модуля Python Pandas

Модуль Python Pandas – это библиотека анализа данных с открытым исходным кодом. Пандас построен на вершине Numpy Module. Учебник модуля Python Pandas на примере программы.

Автор оригинала: Pankaj Kumar.

Модуль Python Pandas

  • Pandas – это библиотека с открытым исходным кодом в Python. Он обеспечивает готов использовать высокопроизводительные структуры данных и инструменты анализа данных.
  • Модуль Pandas работает сверху Numpy И он широко используется для науки и аналитики данных и данных.
  • NUMPY – это низкоуровневая структура данных, которая поддерживает многомерные массивы и широкий спектр операций математических массивов. Pandas имеет интерфейс более высокого уровня. Он также обеспечивает упорядоченное выравнивание табличных данных и мощных функций временных рядов.
  • DataFrame – это ключевая структура данных в пандах. Это позволяет нам хранить и манипулировать табличными данными как 2-D структуру данных.
  • Pandas предоставляет богатый набор функций на DataFrame. Например, выравнивание данных, статистика данных, нарезка , группировка, объединение, объединение данных и т. Д.

Установка и начать работу с Pandas

Вам нужно иметь Python 2.7 и выше для установки модуля PandaS.

Если вы используете Кондей Затем вы можете установить его с помощью команды ниже.

conda install pandas

Если вы используете PIP, затем запустите команду ниже, чтобы установить модуль PandaS.

pip3.7 install pandas

Чтобы импортировать PandA и Numpy в вашем сценарии Python, добавьте ниже кусок кода:

import pandas as pd
import numpy as np

Поскольку Pandas зависит от Numpy Library, нам нужно импортировать эту зависимость.

Структуры данных в модуле Pandas

Существует 3 структуры данных, предоставленные модулем Panda, которые следующие:

  • Серия : Это 1-D-Image-Image-Mative Array, как структура, имеющая однородные данные.
  • DataFrames : Это 2-D-соревновательная структура соревнований с гетерогенно набранными столбцами.
  • Панель : Это 3-D, Size-Mouse Marify.

Pandas DataFrame.

DataFrame является наиболее важным и широко используемым структурой данных и является стандартным способом хранения данных.

DataFrame имеет данные, выровненные в строках и столбцах, таких как таблица SQL или база данных электронной таблицы.

Мы можем либо жестким кодовым данным в DataFrame или импортировать файл CSV, файл TSV, файл Excel, SQL Table и т. Д.

Мы можем использовать ниже конструктор для создания объекта DataFrame.

pandas.DataFrame(data, index, columns, dtype, copy)

Ниже приведено краткое описание параметров:

  • данные – Создайте объект DataFrame от входных данных. Это может быть список, Dict, Series, numpy ndarrays или даже любой другой dataframe.
  • индекс – Есть ли ряд этикетки
  • Колонны – используется для создания меток колонны
  • dtype – Используется для указания типа данных каждого столбца, дополнительный параметр
  • Скопировать – используется для копирования данных, если есть

Есть много способов создать dataframe. Мы можем создавать объект DataFrame из словарей или списка словарей. Мы также можем создать его из списка кортежей, CSV, файла Excel и т. Д.

Давайте запустим простой код, чтобы создать DataFrame из списка словарей.

import pandas as pd
import numpy as np
df = pd.DataFrame({
    "State": ['Andhra Pradesh', 'Maharashtra', 'Karnataka', 'Kerala', 'Tamil Nadu'],
    "Capital": ['Hyderabad', 'Mumbai', 'Bengaluru', 'Trivandrum', 'Chennai'],
    "Literacy %": [89, 77, 82, 97,85],
    "Avg High Temp(c)": [33, 30, 29, 31, 32 ]
})
print(df)

Выход:

Первый шаг – создать словарь. Второй шаг – пройти словарь в качестве аргумента в методе dataFrame (). Последний шаг – распечатать DataFrame.

Как видите, файл dataframe можно сравнивать с таблицей, имеющей гетерогенное значение. Кроме того, размер DataFrame может быть изменен.

Мы поставили данные в виде карты, и ключевые ключи карты рассматриваются Pandas как на этикетки строки.

Индекс отображается в крайнем левом столбце и имеет метки строки. Заголовок и данные столбца отображаются в табличной моде.

Также возможно создать индексированные данные данных. Это можно сделать, настроив параметр индекса в Dataframe () метод.

Импорт данных из CSV в DataFrame

Мы также можем создать dataframe, импортируя файл CSV. Файл CSV – это текстовый файл с одной записью данных в строке. Значения в записи разделены с использованием символа «запятой».

Pandas предоставляет полезный метод, названный read_csv () Чтобы прочитать содержимое файла CSV в DataFrame.

Например, мы можем создать файл с именем «Города .Cvv», содержащие детали индийских городов. Файл CSV хранится в том же каталоге, который содержит сценарии Python. Этот файл может быть импортирован с использованием:

import pandas as pd
data =  pd.read_csv('cities.csv')
print(data)

Отказ Наша цель – загрузить данные и проанализировать его, чтобы сделать выводы. Итак, мы можем использовать любой удобный метод для загрузки данных. В этом руководстве мы жестко кодируем данные датафарама.

Проверка данных в DataFrame

Запуск DataFrame, используя его имя, отображает всю таблицу. В режиме реального времени наборы данных анализе будут иметь тысячи строк. Для анализа данных нам нужно проверить данные от огромных объемов наборов данных. Pandas предоставляют многие полезные функции для проверки только необходимых нам данных. Мы можем использовать df.head (n) Чтобы получить первые в ряды или df.tail (n) напечатать последние N строки. Например, приведенный ниже код печатает первые 2 строки и последней 1 строки из DataFrame.

print(df.head(2))

Выход:

print(df.tail(1))

Выход:

Точно так же Печать (df.dtypes) Распечатывает типы данных.

Выход:

Печать (df.index) Отпечатки индекса.

Выход:

Печать (DF.Columns) печатает столбцы датафарама.

Выход:

Печать (df.values) Отображает значения таблицы.

Выход:

1. Получение статистического сводка записей

Мы можем получить статистическую резюме (счет, среднее, стандартное отклонение, мин, макс и т. Д.) данных, использующих df.describe () функция. Теперь давайте будем использовать эту функцию, чтобы отобразить статистическую сводку столбца «грамотность%». Для этого мы можем добавить ниже кусок кода:

print(df['Literacy %'].describe())

Выход:

df.describe () Функция отображает статистическое резюме наряду с типом данных.

2. Сортировка записей

Мы можем сортировать записи любым столбцом, используя df.sort_values () функция. Например, давайте отсортируем колонку «грамотности%» в порядке убывания.

print(df.sort_values('Literacy %', ascending=False))

Выход:

3. Нарезка записей

Можно извлечь данные определенного столбца, используя имя столбца. Например, чтобы извлечь столбец «Capital», мы используем:

df['Capital']

или же

(df.Capital)

Выход:

Также можно нарезать несколько колонн. Это делается путем включения нескольких имен столбцов, заключенных в 2 квадратных скобках, с именами столбцов, разделенные с помощью запятых. Следующий код ломается «состояние» и «капитальные» столбцы DataFrame.

print(df[['State', 'Capital']])

Выход:

Также возможно нарезать ряды. Несколько строк могут быть выбраны с использованием оператора «:». Код ниже возвращает первые 3 строки.

df[0:3]

Выход:

Интересной особенностью библиотеки PandaS является выбор данных на основе меток ряд и столбцов, используя ILOC [0] функция.

Много раз нам могут понадобиться только несколько столбцов для анализа. Мы также можем выбрать по индексу, используя loc ['index_one']) Отказ

Например, чтобы выбрать второй ряд, мы можем использовать df.iloc [1 ,:] Отказ

Допустим, нам нужно выбрать второй элемент второго столбца. Это можно сделать с помощью df.iloc [1,1] функция. В этом примере функция df.iloc [1,1] Отображает «Мумбаи» в качестве вывода.

4. Фильтрация данных

Также возможно фильтровать на значениях столбца. Например, ниже кода фильтры столбцы, имеющие грамотность% выше 90%.

print(df[df['Literacy %']>90])

Любой оператор сравнения может быть использован для фильтрации на основе состояния.

Выход:

Другой способ фильтрации данных использует Исин Отказ Ниже приведен код для фильтрации только 2 государства «Карнатака» и «Тамилнада».

print(df[df['State'].isin(['Karnataka', 'Tamil Nadu'])])

Выход:

5. Переименовать столбец

Можно использовать df.namame () Функция для переименования столбца. Функция принимает старое имя столбца и новое имя столбца в качестве аргументов. Например, давайте переименуем столбец «грамотность%» до «процента грамотности».

df.rename(columns = {'Literacy %':'Literacy percentage'}, inplace=True)
print(df.head())

Аргумент` вносит изменения в DataFrame.

Выход:

6. Данные Warngling

Наука данных включает в себя обработку данных, так что данные могут хорошо работать с алгоритмами данных. Data Wrungling – это процесс обработки данных, таких как объединение, группировка и объединение.

Библиотека Pandas предоставляет полезные функции, такие как Слияние () , Groupby () и CONCAT () Для поддержки задач Warngling Data.

Давайте создадим 2 данных DataFrames и покажите функции Warngling данных, чтобы лучше понять его.

import pandas as pd

d = {  
    'Employee_id': ['1', '2', '3', '4', '5'],
    'Employee_name': ['Akshar', 'Jones', 'Kate', 'Mike', 'Tina']
}
df1 = pd.DataFrame(d, columns=['Employee_id', 'Employee_name'])  
print(df1)

Выход:

Давайте создадим второе dataframe, используя код ниже:

import pandas as pd

data = {  
    'Employee_id': ['4', '5', '6', '7', '8'],
    'Employee_name': ['Meera', 'Tia', 'Varsha', 'Williams', 'Ziva']
}
df2 = pd.DataFrame(data, columns=['Employee_id', 'Employee_name'])  
print(df2)

Выход:

а. Слияние

Теперь давайте объединим 2 DataFrames, которые мы создали, вдоль значений «shareee_id», используя Слияние () Функция:

print(pd.merge(df1, df2, on='Employee_id'))

Выход:

Мы видим, что функция Merge () возвращает строки из обоих данных, имеющих одно и то же значение столбца, которое использовалось при объединении.

б. Группировка

Группировка – это процесс сбора данных в разные категории. Например, в приведенном ниже примере поле «SEMPLEEE_NAME» имеет имя «Meera» два раза. Итак, давайте группируем его по столбцу «Shareee_Name».

import pandas as pd
import numpy as np

data = {
    'Employee_id': ['4', '5', '6', '7', '8'],
    'Employee_name': ['Meera', 'Meera', 'Varsha', 'Williams', 'Ziva']
}
df2 = pd.DataFrame(data)

group = df2.groupby('Employee_name')
print(group.get_group('Meera'))

Поле «Shareee_Name», имеющее значение «Meera», сгруппировано в колонке «Shareee_name». Выходной вывод как ниже:

Выход:

с. Объединение

Согласительные данные включают в себя добавить один набор данных другим. Pandas предоставляет функцию имени CONCAT () к объединению данных данных. Например, давайте объединяем данные DataFrames DF1 и DF2 , с использованием:

print(pd.concat([df1, df2]))

Выход:

Создайте DataFrame, передавая Dict of Series

Чтобы создать серию, мы можем использовать PD.Series () Способ и пройти к этому массиву. Давайте создадим простую серию следующим образом:

series_sample = pd.Series([100, 200, 300, 400])
print(series_sample)

Выход:

Мы создали серию. Вы можете увидеть, что 2 столбца отображаются. Первый столбец содержит значения индекса, начиная с 0. Второй столбец содержит элементы, переданные как серии.

Можно создать dataframe, передавая словарь `серия`. Давайте создадим DataFrame, который формируется путем объединения и передачи индексов серии.

Пример

d = {'Matches played' : pd.Series([400, 300, 200], index=['Sachin', 'Kohli', 'Raina']),
'Position' : pd.Series([1, 2, 3, 4], index=['Sachin', 'Kohli', 'Raina', 'Dravid'])}
df = pd.DataFrame(d)
print(df)

Образец вывода

Для серии один, как мы не указали этикетку «D», нан возвращается.

Выбор столбцов, сложение, удаление

Можно выбрать определенный столбец из DataFrame. Например, чтобы отобразить только первый столбец, мы можем переписать вышеуказанный код как:

d = {'Matches played' : pd.Series([400, 300, 200], index=['Sachin', 'Kohli', 'Raina']),
 'Position' : pd.Series([1, 2, 3, 4], index=['Sachin', 'Kohli', 'Raina', 'Dravid'])}
df = pd.DataFrame(d)
print(df['Matches played'])

Приведенный выше код печатает только «спички воспроизводимые» столбец The DataFrame.

Выход

Также возможно добавить столбцы в существующее dataframe. Например, приведенный ниже код добавляет новую колонку с именем «Runate» к вышеуказанному DataFrame.

d = {'Matches played' : pd.Series([400, 300, 200], index=['Sachin', 'Kohli', 'Raina']),
 'Position' : pd.Series([1, 2, 3, 4], index=['Sachin', 'Kohli', 'Raina', 'Dravid'])}
df = pd.DataFrame(d)
df['Runrate']=pd.Series([80, 70, 60, 50], index=['Sachin', 'Kohli', 'Raina', 'Dravid'])
print(df)

Выход:

Мы можем удалять столбцы, используя функции `delete` и` pop`. Например, чтобы удалить столбец «Соответствия» в приведенном выше примере, мы можем сделать это одним из следующих способов:

del df['Matches played']

или же

df.pop('Matches played')

Выход:

Заключение

В этом руководстве у нас было краткое введение в библиотеку Python Pandas. Мы также сделали практические примеры для раскрытия силы библиотеки Pandas, используемой в области науки о данных. Мы также прошли различные структуры данных в библиотеке Python.

Ссылка: Официальный сайт Pandas