Рубрики
Без рубрики

Анализ данных сделал простой: Учебник Python Pandas

Данные являются важной частью нашего мира. На самом деле, 90% мировых данных были созданы только в последнем … Помечено с Python, Datascity, анализ, панды.

Данные являются важной частью нашего мира. Фактически, 90% данных мира было создано всего за последние 3 года. Многие Tech Giants начали нанимать ученых данных для анализа данных для принятия деловых решений. Анализ данных – это метод, в котором мы собираем данные, а затем различные операции, такие как нормализация, преобразование, очистка и т. Д., Применится к нашим данным для извлечения полезной информации. Анализ данных в настоящее время находится в высоком требовании, поскольку компании крупные и маленькие ищеты этих ценных навыков.

В настоящее время Python является наиболее важным языком для анализа данных, и многие из отраслевых стандартных инструментов написаны в Python. Python Pandas является одним из самых важных инструментов по требованию, которые нужно учиться любые аналитики для начинающих данных. В этом посте мы познакомим вас с основными основаниями Pandas.

Сегодня мы перейдем:

  • Представляя панды для Python
  • Типы данных Pandas и структуры
  • Серия: самые важные операции
  • DataFrame: самые важные операции
  • Как читать и импортировать данные Pandas
  • Данные warngling с пандами
  • Следующие шаги

Начните свою карьеру как аналитик данных. Узнайте, как выполнить прогнозный анализ данных с использованием инструментов Python. Прогнозный анализ данных с Python

Представляя панды для Python

Библиотека Pandas является одним из важнейших и популярных инструментов для ученых и аналитиков Python Data, поскольку оно является основой многих проектов данных. Pandas – это пакет Python с открытым исходным кодом для очистки данных и манипуляции с данными. Он обеспечивает расширенные гибкие структуры данных для удержания различных типов меченых и реляционных данных. Кроме того, это на самом деле довольно легко установить и использовать.

Панда часто используется в сочетании с другими библиотеками Python. Фактически, Pandas построен на Numpy Package, поэтому много структуры между ними аналогична. Панда также используется в Scipy для статистического анализа или с MATPLOTLIB для функций построения. Pandas можно использовать самостоятельно с текстовым редактором или с ноутбуками Jupyter, идеальной средой для более сложного моделирования данных. Панда доступна для большинства версий Python, включая Python3.

Думать о пандах как Дом для ваших данных Где можно чистить, анализировать и преобразовывать ваши данные, все в одном месте. Пандас по сути является более мощной заменой для Excel. Используя Pandas, вы можете делать такие вещи, как:

  • Легко рассчитайте статистику о таких данных, как поиск среднего, распределения и медиана столбцов
  • Используйте инструменты визуализации данных, такие как MATPLOTLIB, для легкого создания планок с участием, гистограммы и более
  • Очистите ваши данные путем фильтрации столбцов по определенным критериям или легко удалять значения
  • Гибко управляйте своими данными, используя такие операции, как объединение, присоединение, изменение, а также более
  • Читайте, пишите и храните свои чистые данные как база данных, TXT Файл или CSV файл

Популярность пандас

Как мы узнали, Python является самым популярным языком программирования для аналитики данных, и многие из популярных библиотек машинного обучения и визуализации написаны в Python, включая Pandas, Numpy, Tensorflow, MatPlotlib, Scikit-Surrey и многое другое. Фактически, Python занимает 4-е место в опросе 2020 года для самого популярного языка программирования, и он любит свою простоту, легкую обучение-кривую и улучшенную поддержку библиотеки.

Pandas является важной частью аналитики данных. Это занимает 4-е место для самых популярных и любимых библиотек. Он также последовательно ранжирует очень для большинства желаемых инструментов программирования, уверен, что Pandas является востребованным инструментом для разработчиков по всему миру. Обучение Pandas является важным шагом, чтобы стать аналитиком данных.

Первый шаг: Установка панды

Pandas довольно легко установить. Самый простой способ – открыть вашу командную строку (ПК) или терминальную программу (MAC) и установить ее, используя следующую команду для импорта Пандас Особенности.

import pandas as pd

Пандас теперь доступен с аббревиатурой портить .

Вы также можете установить Pandas, используя встроенный инструмент Python Пип и запустить следующую команду.

$ pip install pandas

Структуры данных Pandas и типы данных

А Тип данных Как и внутренняя конструкция, которая определяет, как Python будет манипулировать, использовать или хранить ваши данные. При выполнении анализа данных важно использовать правильные типы данных, чтобы избежать ошибок. Pandas часто правильно правильно определит типы данных, но иногда нам нужно явно преобразовывать данные. Давайте перейдем на типы данных, доступные нам в Пандас, также называемые Dtypes Отказ

  • объект : текстовые или смешанные числовые или неминические значения
  • Int64 : целочисленные номера
  • Bool : истинные/ложные значения
  • float64 : Числа плавающих точек
  • категория : Конечный список текстовых значений
  • datetime64 : Значения даты и времени
  • TimeDelta [NS] : Различия между двумя датами

А Структура данных это определенный способ организации наших данных. Пандас имеет две структуры данных, и все операции основаны на этих двух объектах:

  • Ряд
  • Dataframe.

Подумайте об этом как диаграмму для удобного хранения и организации, где серии являются столбцами, а DataFrame является таблица, состоящей из коллекции серии. Серия Можно лучше описать как один столбец 2-D массива, который может хранить данные любого типа. Dataframe Похоже на таблицу, которая хранит данные, похожие на электронную таблицу, используя несколько столбцов и строк. Каждое значение в Dataframe Объект связан с индексом строки и индексом столбца.

Серия: самые важные операции

Мы можем начать работу с Pands, создав серию. Мы создаем серию, вызывая портить Серия () Способ, а затем прохождение списка значений. Мы печатаем эту серию, используя Печать утверждение. Pandas по умолчанию будет подсчитывать индекс от 0. Затем мы явно определяем эти значения.

series1 = pd.Series([1,2,3,4])

print(series1)

Давайте посмотрим на более сложный пример. Запустите код ниже.

#importing pandas in our program
import pandas as pd

# Defining a series object
srs = pd.Series([11.9, 36.0, 16.6, 21.8, 34.2], index = ['China', 'India', 'USA', 'Brazil', 'Pakistan'])

# Set Series name
srs.name = "Growth Rate"

# Set index name
srs.index.name = "Country"

# printing series values
print("The Indexed Series values are:")
print(srs)

Выход: Значения серии Indexed: Страна Китай 11,9 Индия 36.0 США 16.6 Бразилия 21.8 Пакистан 34.2 Имя: темпы роста, DTYPE: float64.

Как это работает? Два атрибута Серия Объект используются на линии 8 и строка 11. Атрибут SRS.name Устанавливает название объекта нашего серии. Атрибут srs.index.name. Затем устанавливает имя для индексов. Довольно просто, верно?

Выберите записи из серии

Выбрать записи из A Серия , мы выбираем элементы на основе имени индекса или номера индекса. Это использует Numpy.

import numpy as np
import pandas as pd

srs = pd.Series(np.arange(0, 6, 1), index = ['ind0', 'ind1', 'ind2', 'ind3', 'ind4', 'ind5'])
srs.index.name = "Index"
print("The original Series:\n", srs)

print("\nSeries element at index ind3:")
print(srs['ind3']) # Fetch element at index named ind3

print("\nSeries element at index 3:")
print(srs[3]) # Fetch element at index 3

print("\nSeries elements at multiple indexes:\n")
print(srs[['ind1', 'ind4']]) # Fetch elements at multiple indexes

Выход: («Оригинальные серии: \ N ‘, индекс ind0 0 ind1 1 IND 2 2 IND 3 3 ind4 4 IND5 5 dtype: int64)

Как это работает? Ну, элементы из Серия выбраны 3 способами.

  • В строке 9 элемент выбран на основе имени индекса.
  • В строке 12 элемент выбран на основе номера индекса. Имейте в виду, что индексные номера начинаются с 0 Отказ
  • В строке 15 несколько элементов выбраны из Серия Выбирая несколько имен индекса внутри [] .

Падение записей из серии

Снижение и нежелательный индекс – это обычная функция в пандах. Если падение (index_name) Функция называется с заданным индексом на Серия Объект, желаемое имя индекса удаляется.

import numpy as np
import pandas as pd

srs = pd.Series(np.arange(0, 6, 1), index = ['ind0', 'ind1', 'ind2', 'ind3', 'ind4', 'ind5'])
srs.index.name = "Index"
print("The original Series:\n", srs)

srs = srs.drop('ind2') # drop index named ind2

print("The New Series:\n", srs)

Здесь вывод, что ind2 индекс упал. Кроме того, индекс может быть сброшен только путем указания имени индекса, а не номер. Итак, SRS.Drop (SRS [2]) не работает.

Довольно просто, верно? Есть много других функций, условий и логических операторов, которые мы можем подать заявку на нашу Серия объект для производства продуктивного использования индексов. Некоторые из этих функций:

  • Состояние SRS [SRS.0] вернет серийный объект, содержащий индексы со значениями, равными 1.0.
  • Название: ул, необязательно дает имя серии
  • Копировать: bool, по умолчанию false позволяет копировать данные Мы вводят
  • Notnull () Функция вернет серийный объект с индексами, назначенными на Ложь (для NAN Значения), а остальные индексы назначены Истинный
  • а также гораздо более

Примечание: В пандах, Нан относится к нулевым значениям. Это обычно происходит для значений, еще не определенных или определенных. Мы можем иметь дело с Нан Значения путем назначения им значений в наших данных.

DataFrame: самые важные операции

Есть несколько способов сделать Dataframe в пандах. Самый простой способ создать один из нуля – создать и распечатать DF Отказ

import pandas as pd
df = pd.DataFrame({
    "Column1": [1, 4, 8, 7, 9],
    "Column2": ['a', 'column', 'with', 'a', 'string'],
    "Column3": [1.23, 23.5, 45.6, 32.1234, 89.453],
    "Column4": [True, False, True, False, True]
})
print(df)

Выход: Столбец1. Column2 Column3. Столбец4. 0 1 A 1.2300 True 1 4 колонна 23.5000 Ложь 2 8 с 45.6000 Истина 3 7 A 32.1234 False 4 9 строка 89.4530 Истинный

Мы также можем создать Дикт И пропустите наши словарные данные в конструктор DataFrame. Скажем, у нас есть некоторые данные о растительных продажах и хотите организовать его по типу растительного и количества. Наши данные будут выглядеть так:

data = {
    'peppers': [3, 2, 0, 1], 
    'carrots': [0, 3, 7, 2]
}

И теперь мы передаем его конструктору, используя простую команду.

quantity = pd.DataFrame(data)

quantity

Как это работает? Ну, каждый предмет или ценность, в нашем данные будет соответствовать столбцу в разделе DataFrame, который мы создали, как и график. Индекс этого DataFrame указан в виде номеров, но мы можем указать их дальше в зависимости от наших потребностей. Скажи, что мы хотели знать количество в месяц. Это был бы наш новый индекс. Мы делаем это, используя следующую команду.

quantity = pd.DataFrame(data, index=['June', 'July', 'August', 'September'])

quantity

Получить информацию о ваших данных

Одна из первых команд, которые вы работаете после загрузки ваших данных .info () Что обеспечивает всю важную информацию о наборе данных.

import pandas as pd
df = pd.DataFrame({
    "Column1": [1, 4, 8, 7, 9],
    "Column2": ['a', 'column', 'with', 'a', 'string'],
    "Column3": [1.23, 23.5, 45.6, 32.1234, 89.453],
    "Column4": [True, False, True, False, True]
})
df.info()

Выход: Andindex: 5 записей, от 0 до 4 Колонны данных (всего 4 столбца): COLOP1 5 NOULL INT64 Столбец2. 5 ненулевых объектов Column3 5 Non Null Float64 COLOP4 5 NOULL BOOL dtypes: bool (1), float64 (1), int64 (1), объект (1) Использование памяти: 197,0+ байта

Из этого вы можете получить доступ к дополнительной информации с другими операциями, как .shape , который выводит кортеж (строки, столбцы). Это супер полезно для того, чтобы рассказать нам размер наших данных, особенно после того, как мы его убрали. Таким образом, мы можем знать, что было удалено.

Мы также можем напечатать имена столбцов набора данных, чтобы найти несоответствия опечатки или форматирования. Мы используем .Columns Оператор для этого. Затем вы можете легко переименовать свои столбцы. Кроме того, .name () Способ позволяет нам переименовывать столбцы, аналогично поиску и замените функцию слова DOC.

Поиск и выбор в нашем dataframe

Нам также нужно знать, как манипулировать или получать доступ к данным в нашем dataframe, например, выбор, поиск или удаление значений данных. Вы можете сделать это либо по столбце, либо по строке. Давайте посмотрим, как это сделано. Самый простой способ выбрать столбец данных, используя кронштейны [ ] . Мы также можем использовать кронштейны для выбора нескольких столбцов. Скажем, мы хотели посмотреть только на растительное количество июня.

quantity.loc['June']

Примечание: оставлять и ILOC используются для определения данных данных.

  • .iloc находит численный индекс
  • .loc. находит имя индекса. Это похоже на Список нарезка в Python.

Пандас Dataframe Объект также предоставляет методы для выбора определенных столбцов. В следующем примере показано, как это можно сделать.

import pandas as pd

df = pd.read_csv('cancer_stats.csv')

print(df.columns) # print columns of DataFrame

print("\nThe First Column")
print(df['Sex'].head()) # Fetch the sex colum from DataFrame
print("\nThe type of this column is: " + str(type(df['Sex'])) + "\n")

print("\nThe Second Column")
print(df['Under 1'].head()) # Fetch the Under 1 colum from DataFrame
print("\nThe type of this column is: " + str(type(df['Under 1'])) + "\n")


print("\nThe Last Column")
print(df['40-44'].head()) # Fetch the 40-44 colum from DataFrame
print("\nThe type of this column is: " + str(type(df['40-44'])) + "\n")

Выход: Индекс (U’sex ‘, u’under 1’, u’1-4 ‘, u’5-9’, u’10-14 ‘, u’15-19’, u’20-24 ‘, U’25-29 ‘, u’30-34’, u’35-39 ‘, u’40-44’], )

Первый столбец 0 мужчин 1 самки 2 мужчин 3 Самки

На линии 5, DF.Columns Функция отображает имена всех присутствующих столбцов. Доступ к столбцу по его названию. На линии 8, 12 и 17, df ['column_name'] используется для получения 1-го, 2-го и последнего столбца.

Держите обучение идти.

Узнайте Pandas и анализ данных без очистки с помощью видео или документации. Исследовательские текстовые курсы просты в простоте и функционируют живые среды кодирования, что делает обучение быстро и эффективно.

Прогнозный анализ данных с Python

Создайте новый Dataframe из ранее существующих столбцов

Мы также можем захватить несколько столбцов и создать новый Dataframe объект от этого.

import pandas as pd

df = pd.read_csv('test.csv')

print(df.columns)

print("\nThe original DataFrame:")
print(df.head())

print("\nThe new DataFrame with selected columns is:\n")
new_df = pd.DataFrame(df, columns=['Sex', 'Under 1', '40-44'])
print(new_df.head())

Данные reindex в dataframe

Мы также можем повторно повторять данные по самим индексам или столбцам. Овращающиеся с reindex () Позволяет вносить изменения, не запутая начальную настройку объектов.

Примечание: Правила овраги одинаковы для Ряд и Dataframe объекты.

#importing pandas in our program
import pandas as pd

# Defining a series object
srs1 = pd.Series([11.9, 36.0, 16.6, 21.8, 34.2], index = ['China', 'India', 'USA', 'Brazil', 'Pakistan'])

# Set Series name
srs1.name = "Growth Rate"

# Set index name
srs1.index.name = "Country"

srs2 = srs1.reindex(['China', 'India', 'Malaysia', 'USA', 'Brazil', 'Pakistan', 'England'])
print("The series with new indexes is:\n",srs2)

srs3 = srs1.reindex(['China', 'India', 'Malaysia', 'USA', 'Brazil', 'Pakistan', 'England'], fill_value=0)
print("\nThe series with new indexes is:\n",srs3)

Выход: («Серия с новыми индексами: \ N ‘, страна Китай 11,9 Индия 36.0 Малайзия Нэн США 16.6 Бразилия 21.8 Пакистан 34.2 Англия Нэн Имя: темпы роста, DTYPE: float64) («Серия с новыми индексами: \ N ‘, страна Китай 11,9 Индия 36.0 Малайзия 0.0 США 16.6 Бразилия 21.8 Пакистан 34.2 Англия 0.0 Имя: темпы роста, DTYPE: FLOAT64)

Как это работает? Ну, на линии 11, индексы изменяются. Новое имя индекса добавляется между Row2 и Row4 Отказ Одна строка 14, Колонны Ключевое слово должно быть специально используется для повторного обслуживания столбцов DataFrame. Правила такие же, как для индексов. Нан Значения были назначены всей столбце по умолчанию.

Как читать или импортировать данные Pandas

Это довольно легко читать или импортировать данные из других файлов, используя библиотеку Pandas. На самом деле, мы можем использовать различные источники, такие как CSV , JSON или Excel загрузить наши данные и получить доступ к ней. Давайте посмотрим на каждый.

Чтение и импорт данных из файлов CSV

Мы можем импортировать данные из CSV Файл, который является обычной практикой для пользователей Pandas. Мы просто создаем или открываем наш файл CSV, скопируйте данные, вставьте его в наш блокнот и сохраните его в том же каталоге, который содержит ваши скрипты Python. Затем вы используете немного кода, чтобы прочитать данные, используя read_csv Функция строит в пандах.

import pandas as pd
data = pd.read_csv('vegetables.csv')
print(data)

read_csv Сгенерирует столбец индекса в качестве по умолчанию, поэтому нам нужно изменить это для первого столбца – столбец индекса. Мы можем сделать это, передавая параметр index_col Сказать панды, какой столбец к индексированию.

data = pd.read_csv("data.csv", index_col=0)

После того, как мы использовали Pands для сортировки и чистых данных, мы можем сохранить его обратно, как исходный файл с простыми командами. Вам нужно только ввести имя файла и расширение. Насколько просто!

df.to_csv('new_vegetables.csv')

Чтение и импорт данных от JSON

Скажи, что у вас есть JSON файл. Файл JSON в основном как хранимый Python обдумывать Так что Pandas может легко получить доступ и прочитать его, используя read_json. функция. Давайте посмотрим на пример.

df = pd.read_json('purchases.json')

Как и с CSV Файлы, как только мы использовали Pandas, чтобы сортировать и чистить данные, мы можем сохранить его назад, как исходный файл с простыми командами. Вам нужно только ввести имя файла и расширение.

df.to_json('new_purchases.json')

Чтение и импорт данных из файла Excel

Скажем, у вас есть файл Excel. Вы можете подобно использовать read_excel Функция для доступа и прочитать эти данные.

import pandas as pd
data = pd.read_excel('workers.xlsx')
print (data)

Как только мы позвоним read_excel Функция, мы передаем имя файла Excel в качестве нашего аргумента, поэтому read_excel Открою данные файла. Мы можем Печать () отображать данные. Если мы хотим пойти на шаг дальше, мы можем добавить loc () Метод от ранее, позволяющий нам прочитать определенные ряды и столбцы нашего файла.

import pandas as pd
data = pd.read_excel('workers.xlsx')

print (data.loc[[1,4,7],['Name','Salary']])

Данные warngling с пандами

После того, как у нас есть наши данные, мы можем использовать процессы Wrungling Data для манипулирования и подготовить данные для анализа. Наиболее распространенные обработки данных ошеломляющих данных объединяются, конкатенация и группировка. Давайте понижаем основы каждого из них.

Слияние с пандами

Слияние используется, когда мы хотим собирать данные, которые разделяют клавишу переменную, но расположены в разных данных данных. Чтобы объединить данные данных, мы используем слияние () функция. Скажем, у нас есть DF1 и DF2 Отказ

import pandas as pd

d = {
    'subject_id': ['1', '2', '3', '4', '5'],
    'student_name': ['Mark', 'Khalid', 'Deborah', 'Trevon', 'Raven']
}
df1 = pd.DataFrame(d, columns=['subject_id', 'student_name'])
print(df1)
import pandas as pd

data = {
    'subject_id': ['4', '5', '6', '7', '8'],
    'student_name': ['Eric', 'Imani', 'Cece', 'Darius', 'Andre']
}
df2 = pd.DataFrame(data, columns=['subject_id', 'student_name'])
print(df2)

Итак, как мы их сливаемся? Это просто: с слияние () Функция!

pd.merge(df1, df2, on='subject_id')

Группировка с пандами

Группировка – это то, как мы классифицируем наши данные. Если значение происходит в нескольких рядах одного столбца, данные, связанные с этим значением в других столбцах, могут быть сгруппированы вместе. Как и с объединением, это проще, чем звучит. Мы используем Groupby функция. Посмотрите на этот пример.

# import pandas library
import pandas as pd

raw = {
    'Name': ['Darell', 'Darell', 'Lilith', 'Lilith', 'Tran', 'Tran', 'Tran',
        'Tran', 'John', 'Darell', 'Darell', 'Darell'],
    'Position': [2, 1, 1, 4, 2, 4, 3, 1, 3, 2, 4, 3],
    'Year': [2009, 2010, 2009, 2010, 2010, 2010, 2011, 2012, 2011, 2013, 2013, 2012],
    'Marks':[408, 398, 422, 376, 401, 380, 396, 388, 356, 402, 368, 378]
}
df = pd.DataFrame(raw)

group = df.groupby('Year')
print(group.get_group(2011))

Выход: Отмечает название позиции Год 6 396 Tran 3 2011 8 356. John 3 2011.

Согласие

ConcateNation – это длинное слово, которое означает добавить набор данных в другое. Мы используем CONCAT () функция сделать это. Чтобы прояснить разницу между слиянием и конкатенацией, слияние () Сочетает в себе данные об общих колоннах, а CONCAT () Объединяет данные данных по столбцам или строкам.

print(pd.concat([df1, df2]))

Довольно просто, верно? Некоторые другие общие процессы Wribling данных, которые вы должны знать:

  • Картина данных и нахождение дубликатов
  • Поиск выбросов в данных
  • Агрегация данных
  • Изменение данных
  • Заменить и переименовать
  • а также более

Упаковка и следующие шаги

Теперь, когда у вас есть хорошее чувство Python Pandas и бесчисленные преимущества, которые он предлагает, важно знать, что учиться дальше. Как только вы получите основы, например, как импортировать, прочитать и запутывать ваши данные, пришло время решать следующий этап анализа данных для Python:

  • Статистика
  • Воплощение
  • Расширенные данные warngling.
  • Визуализации для данных
  • Скрепление данных
  • Реальные проекты

Курс обучения Прогнозный анализ данных для Python охватывает все эти концепции и больше с практическими практиками и отраслевыми примерами. Вы можете освоить панды через викторины, интерактивные примеры и реальный анализ поведения. К концу вы будете уверенно аналитики данных!

Продолжайте читать о Python и анализ данных

Оригинал: “https://dev.to/educative/data-analysis-made-simple-python-pandas-tutorial-45f0”