Данные являются важной частью нашего мира. Фактически, 90% данных мира было создано всего за последние 3 года. Многие Tech Giants начали нанимать ученых данных для анализа данных для принятия деловых решений. Анализ данных – это метод, в котором мы собираем данные, а затем различные операции, такие как нормализация, преобразование, очистка и т. Д., Применится к нашим данным для извлечения полезной информации. Анализ данных в настоящее время находится в высоком требовании, поскольку компании крупные и маленькие ищеты этих ценных навыков.
В настоящее время Python является наиболее важным языком для анализа данных, и многие из отраслевых стандартных инструментов написаны в Python. Python Pandas является одним из самых важных инструментов по требованию, которые нужно учиться любые аналитики для начинающих данных. В этом посте мы познакомим вас с основными основаниями Pandas.
Сегодня мы перейдем:
- Представляя панды для Python
- Типы данных Pandas и структуры
- Серия: самые важные операции
- DataFrame: самые важные операции
- Как читать и импортировать данные Pandas
- Данные warngling с пандами
- Следующие шаги
Начните свою карьеру как аналитик данных. Узнайте, как выполнить прогнозный анализ данных с использованием инструментов Python. Прогнозный анализ данных с Python
Представляя панды для Python
Библиотека Pandas является одним из важнейших и популярных инструментов для ученых и аналитиков Python Data, поскольку оно является основой многих проектов данных. Pandas – это пакет Python с открытым исходным кодом для очистки данных и манипуляции с данными. Он обеспечивает расширенные гибкие структуры данных для удержания различных типов меченых и реляционных данных. Кроме того, это на самом деле довольно легко установить и использовать.
Панда часто используется в сочетании с другими библиотеками Python. Фактически, Pandas построен на Numpy Package, поэтому много структуры между ними аналогична. Панда также используется в Scipy для статистического анализа или с MATPLOTLIB для функций построения. Pandas можно использовать самостоятельно с текстовым редактором или с ноутбуками Jupyter, идеальной средой для более сложного моделирования данных. Панда доступна для большинства версий Python, включая Python3.
Думать о пандах как Дом для ваших данных Где можно чистить, анализировать и преобразовывать ваши данные, все в одном месте. Пандас по сути является более мощной заменой для Excel. Используя Pandas, вы можете делать такие вещи, как:
- Легко рассчитайте статистику о таких данных, как поиск среднего, распределения и медиана столбцов
- Используйте инструменты визуализации данных, такие как MATPLOTLIB, для легкого создания планок с участием, гистограммы и более
- Очистите ваши данные путем фильтрации столбцов по определенным критериям или легко удалять значения
- Гибко управляйте своими данными, используя такие операции, как объединение, присоединение, изменение, а также более
- Читайте, пишите и храните свои чистые данные как база данных,
TXT
Файл илиCSV
файл
Популярность пандас
Как мы узнали, Python является самым популярным языком программирования для аналитики данных, и многие из популярных библиотек машинного обучения и визуализации написаны в Python, включая Pandas, Numpy, Tensorflow, MatPlotlib, Scikit-Surrey и многое другое. Фактически, Python занимает 4-е место в опросе 2020 года для самого популярного языка программирования, и он любит свою простоту, легкую обучение-кривую и улучшенную поддержку библиотеки.
Pandas является важной частью аналитики данных. Это занимает 4-е место для самых популярных и любимых библиотек. Он также последовательно ранжирует очень для большинства желаемых инструментов программирования, уверен, что Pandas является востребованным инструментом для разработчиков по всему миру. Обучение Pandas является важным шагом, чтобы стать аналитиком данных.
Первый шаг: Установка панды
Pandas довольно легко установить. Самый простой способ – открыть вашу командную строку (ПК) или терминальную программу (MAC) и установить ее, используя следующую команду для импорта Пандас
Особенности.
import pandas as pd
Пандас теперь доступен с аббревиатурой портить .
Вы также можете установить Pandas, используя встроенный инструмент Python Пип
и запустить следующую команду.
$ pip install pandas
Структуры данных Pandas и типы данных
А Тип данных Как и внутренняя конструкция, которая определяет, как Python будет манипулировать, использовать или хранить ваши данные. При выполнении анализа данных важно использовать правильные типы данных, чтобы избежать ошибок. Pandas часто правильно правильно определит типы данных, но иногда нам нужно явно преобразовывать данные. Давайте перейдем на типы данных, доступные нам в Пандас, также называемые Dtypes
Отказ
объект
: текстовые или смешанные числовые или неминические значенияInt64
: целочисленные номераBool
: истинные/ложные значенияfloat64
: Числа плавающих точеккатегория
: Конечный список текстовых значенийdatetime64
: Значения даты и времениTimeDelta [NS]
: Различия между двумя датами
А Структура данных это определенный способ организации наших данных. Пандас имеет две структуры данных, и все операции основаны на этих двух объектах:
Ряд
Dataframe.
Подумайте об этом как диаграмму для удобного хранения и организации, где серии являются столбцами, а DataFrame является таблица, состоящей из коллекции серии. Серия
Можно лучше описать как один столбец 2-D массива, который может хранить данные любого типа. Dataframe
Похоже на таблицу, которая хранит данные, похожие на электронную таблицу, используя несколько столбцов и строк. Каждое значение в Dataframe
Объект связан с индексом строки и индексом столбца.
Серия: самые важные операции
Мы можем начать работу с Pands, создав серию. Мы создаем серию, вызывая портить Серия ()
Способ, а затем прохождение списка значений. Мы печатаем эту серию, используя Печать
утверждение. Pandas по умолчанию будет подсчитывать индекс от 0. Затем мы явно определяем эти значения.
series1 = pd.Series([1,2,3,4]) print(series1)
Давайте посмотрим на более сложный пример. Запустите код ниже.
#importing pandas in our program import pandas as pd # Defining a series object srs = pd.Series([11.9, 36.0, 16.6, 21.8, 34.2], index = ['China', 'India', 'USA', 'Brazil', 'Pakistan']) # Set Series name srs.name = "Growth Rate" # Set index name srs.index.name = "Country" # printing series values print("The Indexed Series values are:") print(srs)
Выход: Значения серии Indexed: Страна Китай 11,9 Индия 36.0 США 16.6 Бразилия 21.8 Пакистан 34.2 Имя: темпы роста, DTYPE: float64.
Как это работает? Два атрибута Серия
Объект используются на линии 8 и строка 11. Атрибут SRS.name
Устанавливает название объекта нашего серии. Атрибут srs.index.name.
Затем устанавливает имя для индексов. Довольно просто, верно?
Выберите записи из серии
Выбрать записи из A Серия
, мы выбираем элементы на основе имени индекса или номера индекса. Это использует Numpy.
import numpy as np import pandas as pd srs = pd.Series(np.arange(0, 6, 1), index = ['ind0', 'ind1', 'ind2', 'ind3', 'ind4', 'ind5']) srs.index.name = "Index" print("The original Series:\n", srs) print("\nSeries element at index ind3:") print(srs['ind3']) # Fetch element at index named ind3 print("\nSeries element at index 3:") print(srs[3]) # Fetch element at index 3 print("\nSeries elements at multiple indexes:\n") print(srs[['ind1', 'ind4']]) # Fetch elements at multiple indexes
Выход: («Оригинальные серии: \ N ‘, индекс ind0 0 ind1 1 IND 2 2 IND 3 3 ind4 4 IND5 5 dtype: int64)
Как это работает? Ну, элементы из Серия
выбраны 3 способами.
- В строке 9 элемент выбран на основе имени индекса.
- В строке 12 элемент выбран на основе номера индекса. Имейте в виду, что индексные номера начинаются с
0
Отказ - В строке 15 несколько элементов выбраны из
Серия
Выбирая несколько имен индекса внутри[]
.
Падение записей из серии
Снижение и нежелательный индекс – это обычная функция в пандах. Если падение (index_name)
Функция называется с заданным индексом на Серия
Объект, желаемое имя индекса удаляется.
import numpy as np import pandas as pd srs = pd.Series(np.arange(0, 6, 1), index = ['ind0', 'ind1', 'ind2', 'ind3', 'ind4', 'ind5']) srs.index.name = "Index" print("The original Series:\n", srs) srs = srs.drop('ind2') # drop index named ind2 print("The New Series:\n", srs)
Здесь вывод, что ind2
индекс упал. Кроме того, индекс может быть сброшен только путем указания имени индекса, а не номер. Итак, SRS.Drop (SRS [2])
не работает.
Довольно просто, верно? Есть много других функций, условий и логических операторов, которые мы можем подать заявку на нашу Серия
объект для производства продуктивного использования индексов. Некоторые из этих функций:
- Состояние
SRS [SRS.0]
вернет серийный объект, содержащий индексы со значениями, равными 1.0. Название: ул, необязательно
дает имя серииКопировать: bool, по умолчанию false
позволяет копировать данные Мы вводят-
Notnull ()
Функция вернет серийный объект с индексами, назначенными наЛожь
(дляNAN
Значения), а остальные индексы назначеныИстинный
- а также гораздо более
Примечание: В пандах, Нан
относится к нулевым значениям. Это обычно происходит для значений, еще не определенных или определенных. Мы можем иметь дело с Нан
Значения путем назначения им значений в наших данных.
DataFrame: самые важные операции
Есть несколько способов сделать Dataframe
в пандах. Самый простой способ создать один из нуля – создать и распечатать DF
Отказ
import pandas as pd df = pd.DataFrame({ "Column1": [1, 4, 8, 7, 9], "Column2": ['a', 'column', 'with', 'a', 'string'], "Column3": [1.23, 23.5, 45.6, 32.1234, 89.453], "Column4": [True, False, True, False, True] }) print(df)
Выход: Столбец1. Column2 Column3. Столбец4. 0 1 A 1.2300 True 1 4 колонна 23.5000 Ложь 2 8 с 45.6000 Истина 3 7 A 32.1234 False 4 9 строка 89.4530 Истинный
Мы также можем создать Дикт
И пропустите наши словарные данные в конструктор DataFrame. Скажем, у нас есть некоторые данные о растительных продажах и хотите организовать его по типу растительного и количества. Наши данные будут выглядеть так:
data = { 'peppers': [3, 2, 0, 1], 'carrots': [0, 3, 7, 2] }
И теперь мы передаем его конструктору, используя простую команду.
quantity = pd.DataFrame(data) quantity
Как это работает? Ну, каждый предмет или ценность, в нашем данные
будет соответствовать столбцу в разделе DataFrame, который мы создали, как и график. Индекс этого DataFrame указан в виде номеров, но мы можем указать их дальше в зависимости от наших потребностей. Скажи, что мы хотели знать количество в месяц. Это был бы наш новый индекс. Мы делаем это, используя следующую команду.
quantity = pd.DataFrame(data, index=['June', 'July', 'August', 'September']) quantity
Получить информацию о ваших данных
Одна из первых команд, которые вы работаете после загрузки ваших данных .info ()
Что обеспечивает всю важную информацию о наборе данных.
import pandas as pd df = pd.DataFrame({ "Column1": [1, 4, 8, 7, 9], "Column2": ['a', 'column', 'with', 'a', 'string'], "Column3": [1.23, 23.5, 45.6, 32.1234, 89.453], "Column4": [True, False, True, False, True] }) df.info()
Выход: Andindex: 5 записей, от 0 до 4 Колонны данных (всего 4 столбца): COLOP1 5 NOULL INT64 Столбец2. 5 ненулевых объектов Column3 5 Non Null Float64 COLOP4 5 NOULL BOOL dtypes: bool (1), float64 (1), int64 (1), объект (1) Использование памяти: 197,0+ байта
Из этого вы можете получить доступ к дополнительной информации с другими операциями, как .shape
, который выводит кортеж (строки, столбцы). Это супер полезно для того, чтобы рассказать нам размер наших данных, особенно после того, как мы его убрали. Таким образом, мы можем знать, что было удалено.
Мы также можем напечатать имена столбцов набора данных, чтобы найти несоответствия опечатки или форматирования. Мы используем .Columns
Оператор для этого. Затем вы можете легко переименовать свои столбцы. Кроме того, .name ()
Способ позволяет нам переименовывать столбцы, аналогично поиску и замените функцию слова DOC.
Поиск и выбор в нашем dataframe
Нам также нужно знать, как манипулировать или получать доступ к данным в нашем dataframe, например, выбор, поиск или удаление значений данных. Вы можете сделать это либо по столбце, либо по строке. Давайте посмотрим, как это сделано. Самый простой способ выбрать столбец данных, используя кронштейны [ ]
. Мы также можем использовать кронштейны для выбора нескольких столбцов. Скажем, мы хотели посмотреть только на растительное количество июня.
quantity.loc['June']
Примечание: оставлять
и ILOC
используются для определения данных данных.
.iloc
находит численный индекс.loc.
находит имя индекса. Это похоже наСписок
нарезка в Python.
Пандас Dataframe
Объект также предоставляет методы для выбора определенных столбцов. В следующем примере показано, как это можно сделать.
import pandas as pd df = pd.read_csv('cancer_stats.csv') print(df.columns) # print columns of DataFrame print("\nThe First Column") print(df['Sex'].head()) # Fetch the sex colum from DataFrame print("\nThe type of this column is: " + str(type(df['Sex'])) + "\n") print("\nThe Second Column") print(df['Under 1'].head()) # Fetch the Under 1 colum from DataFrame print("\nThe type of this column is: " + str(type(df['Under 1'])) + "\n") print("\nThe Last Column") print(df['40-44'].head()) # Fetch the 40-44 colum from DataFrame print("\nThe type of this column is: " + str(type(df['40-44'])) + "\n")
Выход: Индекс (U’sex ‘, u’under 1’, u’1-4 ‘, u’5-9’, u’10-14 ‘, u’15-19’, u’20-24 ‘, U’25-29 ‘, u’30-34’, u’35-39 ‘, u’40-44’], )
Первый столбец 0 мужчин 1 самки 2 мужчин 3 Самки
На линии 5, DF.Columns
Функция отображает имена всех присутствующих столбцов. Доступ к столбцу по его названию. На линии 8, 12 и 17, df ['column_name']
используется для получения 1-го, 2-го и последнего столбца.
Держите обучение идти.
Узнайте Pandas и анализ данных без очистки с помощью видео или документации. Исследовательские текстовые курсы просты в простоте и функционируют живые среды кодирования, что делает обучение быстро и эффективно.
Прогнозный анализ данных с Python
Создайте новый Dataframe из ранее существующих столбцов
Мы также можем захватить несколько столбцов и создать новый Dataframe
объект от этого.
import pandas as pd df = pd.read_csv('test.csv') print(df.columns) print("\nThe original DataFrame:") print(df.head()) print("\nThe new DataFrame with selected columns is:\n") new_df = pd.DataFrame(df, columns=['Sex', 'Under 1', '40-44']) print(new_df.head())
Данные reindex в dataframe
Мы также можем повторно повторять данные по самим индексам или столбцам. Овращающиеся с reindex ()
Позволяет вносить изменения, не запутая начальную настройку объектов.
Примечание: Правила овраги одинаковы для Ряд
и Dataframe
объекты.
#importing pandas in our program import pandas as pd # Defining a series object srs1 = pd.Series([11.9, 36.0, 16.6, 21.8, 34.2], index = ['China', 'India', 'USA', 'Brazil', 'Pakistan']) # Set Series name srs1.name = "Growth Rate" # Set index name srs1.index.name = "Country" srs2 = srs1.reindex(['China', 'India', 'Malaysia', 'USA', 'Brazil', 'Pakistan', 'England']) print("The series with new indexes is:\n",srs2) srs3 = srs1.reindex(['China', 'India', 'Malaysia', 'USA', 'Brazil', 'Pakistan', 'England'], fill_value=0) print("\nThe series with new indexes is:\n",srs3)
Выход: («Серия с новыми индексами: \ N ‘, страна Китай 11,9 Индия 36.0 Малайзия Нэн США 16.6 Бразилия 21.8 Пакистан 34.2 Англия Нэн Имя: темпы роста, DTYPE: float64) («Серия с новыми индексами: \ N ‘, страна Китай 11,9 Индия 36.0 Малайзия 0.0 США 16.6 Бразилия 21.8 Пакистан 34.2 Англия 0.0 Имя: темпы роста, DTYPE: FLOAT64)
Как это работает? Ну, на линии 11, индексы изменяются. Новое имя индекса добавляется между Row2
и Row4
Отказ Одна строка 14, Колонны
Ключевое слово должно быть специально используется для повторного обслуживания столбцов DataFrame. Правила такие же, как для индексов. Нан
Значения были назначены всей столбце по умолчанию.
Как читать или импортировать данные Pandas
Это довольно легко читать или импортировать данные из других файлов, используя библиотеку Pandas. На самом деле, мы можем использовать различные источники, такие как CSV
, JSON
или Excel
загрузить наши данные и получить доступ к ней. Давайте посмотрим на каждый.
Чтение и импорт данных из файлов CSV
Мы можем импортировать данные из CSV
Файл, который является обычной практикой для пользователей Pandas. Мы просто создаем или открываем наш файл CSV, скопируйте данные, вставьте его в наш блокнот и сохраните его в том же каталоге, который содержит ваши скрипты Python. Затем вы используете немного кода, чтобы прочитать данные, используя read_csv
Функция строит в пандах.
import pandas as pd data = pd.read_csv('vegetables.csv') print(data)
read_csv
Сгенерирует столбец индекса в качестве по умолчанию, поэтому нам нужно изменить это для первого столбца – столбец индекса. Мы можем сделать это, передавая параметр index_col
Сказать панды, какой столбец к индексированию.
data = pd.read_csv("data.csv", index_col=0)
После того, как мы использовали Pands для сортировки и чистых данных, мы можем сохранить его обратно, как исходный файл с простыми командами. Вам нужно только ввести имя файла и расширение. Насколько просто!
df.to_csv('new_vegetables.csv')
Чтение и импорт данных от JSON
Скажи, что у вас есть JSON
файл. Файл JSON в основном как хранимый Python обдумывать
Так что Pandas может легко получить доступ и прочитать его, используя read_json.
функция. Давайте посмотрим на пример.
df = pd.read_json('purchases.json')
Как и с CSV
Файлы, как только мы использовали Pandas, чтобы сортировать и чистить данные, мы можем сохранить его назад, как исходный файл с простыми командами. Вам нужно только ввести имя файла и расширение.
df.to_json('new_purchases.json')
Чтение и импорт данных из файла Excel
Скажем, у вас есть файл Excel. Вы можете подобно использовать read_excel
Функция для доступа и прочитать эти данные.
import pandas as pd data = pd.read_excel('workers.xlsx') print (data)
Как только мы позвоним read_excel
Функция, мы передаем имя файла Excel в качестве нашего аргумента, поэтому read_excel
Открою данные файла. Мы можем Печать ()
отображать данные. Если мы хотим пойти на шаг дальше, мы можем добавить loc ()
Метод от ранее, позволяющий нам прочитать определенные ряды и столбцы нашего файла.
import pandas as pd data = pd.read_excel('workers.xlsx') print (data.loc[[1,4,7],['Name','Salary']])
Данные warngling с пандами
После того, как у нас есть наши данные, мы можем использовать процессы Wrungling Data для манипулирования и подготовить данные для анализа. Наиболее распространенные обработки данных ошеломляющих данных объединяются, конкатенация и группировка. Давайте понижаем основы каждого из них.
Слияние с пандами
Слияние используется, когда мы хотим собирать данные, которые разделяют клавишу переменную, но расположены в разных данных данных. Чтобы объединить данные данных, мы используем слияние ()
функция. Скажем, у нас есть DF1
и DF2
Отказ
import pandas as pd d = { 'subject_id': ['1', '2', '3', '4', '5'], 'student_name': ['Mark', 'Khalid', 'Deborah', 'Trevon', 'Raven'] } df1 = pd.DataFrame(d, columns=['subject_id', 'student_name']) print(df1)
import pandas as pd data = { 'subject_id': ['4', '5', '6', '7', '8'], 'student_name': ['Eric', 'Imani', 'Cece', 'Darius', 'Andre'] } df2 = pd.DataFrame(data, columns=['subject_id', 'student_name']) print(df2)
Итак, как мы их сливаемся? Это просто: с слияние ()
Функция!
pd.merge(df1, df2, on='subject_id')
Группировка с пандами
Группировка – это то, как мы классифицируем наши данные. Если значение происходит в нескольких рядах одного столбца, данные, связанные с этим значением в других столбцах, могут быть сгруппированы вместе. Как и с объединением, это проще, чем звучит. Мы используем Groupby
функция. Посмотрите на этот пример.
# import pandas library import pandas as pd raw = { 'Name': ['Darell', 'Darell', 'Lilith', 'Lilith', 'Tran', 'Tran', 'Tran', 'Tran', 'John', 'Darell', 'Darell', 'Darell'], 'Position': [2, 1, 1, 4, 2, 4, 3, 1, 3, 2, 4, 3], 'Year': [2009, 2010, 2009, 2010, 2010, 2010, 2011, 2012, 2011, 2013, 2013, 2012], 'Marks':[408, 398, 422, 376, 401, 380, 396, 388, 356, 402, 368, 378] } df = pd.DataFrame(raw) group = df.groupby('Year') print(group.get_group(2011))
Выход: Отмечает название позиции Год 6 396 Tran 3 2011 8 356. John 3 2011.
Согласие
ConcateNation – это длинное слово, которое означает добавить набор данных в другое. Мы используем CONCAT ()
функция сделать это. Чтобы прояснить разницу между слиянием и конкатенацией, слияние ()
Сочетает в себе данные об общих колоннах, а CONCAT ()
Объединяет данные данных по столбцам или строкам.
print(pd.concat([df1, df2]))
Довольно просто, верно? Некоторые другие общие процессы Wribling данных, которые вы должны знать:
- Картина данных и нахождение дубликатов
- Поиск выбросов в данных
- Агрегация данных
- Изменение данных
- Заменить и переименовать
- а также более
Упаковка и следующие шаги
Теперь, когда у вас есть хорошее чувство Python Pandas и бесчисленные преимущества, которые он предлагает, важно знать, что учиться дальше. Как только вы получите основы, например, как импортировать, прочитать и запутывать ваши данные, пришло время решать следующий этап анализа данных для Python:
- Статистика
- Воплощение
- Расширенные данные warngling.
- Визуализации для данных
- Скрепление данных
- Реальные проекты
Курс обучения Прогнозный анализ данных для Python охватывает все эти концепции и больше с практическими практиками и отраслевыми примерами. Вы можете освоить панды через викторины, интерактивные примеры и реальный анализ поведения. К концу вы будете уверенно аналитики данных!
Продолжайте читать о Python и анализ данных
- Хватит с помощью Excel для аналитики данных: обновление до Python
- Выровняйте свои навыки Python с этими 6 проблемами
- Исследуя наука о данных с приложенным инженером Microsoft AI
Оригинал: “https://dev.to/educative/data-analysis-made-simple-python-pandas-tutorial-45f0”