Чтение и манипулирование вашим набором данных с пандами

Если вы являетесь энтузиастом науки о данных, хотите работать над аналитикой данных или изучения машин, и удивляясь, где и как начать, то, что вам нужно будет учиться сначала, – это прочитать и манипулировать набором данных. Работая с аналитикой данных или проблемой изучения машины, вы, скорее всего, будут даны набор данных (вероятно, лист Excel), или вы можете собирать данные из некоторых аппаратных, опросов или некоторых других источников. Когда я впервые начал работать в этой области, у меня было трудно отслеживать наиболее распространенные и широко используемые команды манипулирования набора данных. Я хотел бы поделиться некоторыми из моих самых используемых команд в библиотеке «Пандас» из Python в этой статье. Набор данных, который я использовал для отображения примеров, взяты из Kaggle ( https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009 ). Я использовал Google Colab для запуска моих кодов, которые вы можете легко использовать, посетив ссылку https://colab.research.google.com/notebooks/intro.ipynb#recent=true Отказ Вам необходимо создать новый ноутбук, чтобы написать свои блоки кода.

Сначала вам нужно Загрузить ваш набор данных Google Colab. Для этого вам нужно написать:

from google.colab import files
uploaded = files.upload()

Вы получите кнопку, чтобы выбрать файл .csv с вашего компьютера. Как только вы загрузите файл, проверьте, если имя все равно одинаково, потому что Загрузка того же файла несколько раз в том же сеансе изменит название вашего набора данных Отказ

Поскольку ваш файл загружен сейчас, вам нужно прочитать набор данных. Вы будете использовать библиотеку «Pandas», чтобы прочитать файл .csv и упомянуть его как «PD». Полная форма CSV – это значения разделения запятыми, и этот тип формата используется для хранения данных в формате таблицы (или электронной таблицы), со строками и столбцами. Поэтому нам понадобится двумерная структура данных для чтения данных из файлов .csv. Наиболее распространенные двумерные данные в пандах является DataFrames. . Мы принимаем dataframe, обозначенные DF , читая файл .csv и сохраняя содержимое файла в DAFAFRAME DF.

import pandas as pd
df = pd.read_csv("winequality-red.csv")
df

Вот как выглядит ваши данные. Вы можете найти общее количество строк и столбцов в нижнем левом углу вашего вывода. Есть еще один способ изучить размер вашего набора данных:

df.shape

Вывод: (1599, 12) , где числа означают строки и столбцы последовательно. Поскольку существует ряд столбцов, может возникнуть необходимость знать, какие типы данных, номера, фракции или слова. Чтобы проверить это, напишите:

df.dtypes

Вы можете увидеть некоторые статистические сводки, такие как счет, среднее значение, стандартное отклонение, минимальное и максимальное значение и 25-е, 50 и 75-й процентиль всех столбцов отдельно, используя команду:

df.describe()

Возможно, вы уже заметили, что все строки не отображаются на выходе. Первые и последние строки показаны, а некоторые средние не отображаются и заменяются на «…» вместо этого. Просмотр всех этих рядов может быть слишком много времени, и вы можете просмотреть только несколько строк данных, чтобы проверить, работает ли ваш код. Например, если вы хотите увидеть только Первые пять линий данных:

df.head()

Точно так же, если вы хотите увидеть только последние несколько строк вашего набора данных:

df.tail(3)

Что, если вы хотите увидеть первые 8 строк?

df[:8]

Номер после того, как толстая кишка указывает, сколько строк, начиная с первого ряда (в этом случае, от 0 до 7 ряд), вы хотите увидеть. Теперь, если вы хотите увидеть последние 8 строк, вам придется выяснить 1591-й строк до 1598 ряд. Сделать это:

df[1591:]

Если вы хотите увидеть все строки набора данных в то время вместо «…», сделайте это:

pd.set_option('display.max_rows', None)  
df

Это позволит вам увидеть все строки в прокручиваемом поле.

Вы также можете Транспонировать Ваше dataframe, это означает, что включает ряды в столбцы и столбцы в строки. Обмен строки и столбцы, напишите:

df.T

Здесь вы не можете видеть все столбцы, и средние заменены на «…» снова. Чтобы изменить его, вы можете написать:

pd.set_option('display.max_columns', None)  
df.T

Как вы знаете основную команду Pandas Pandas, вы готовы погрузиться в методы манипулирования набора данных.

Оригинал: “https://dev.to/orthymarjan/reading-and-manipulating-your-dataset-with-pandas-3kla”

Читайте ещё по теме: