Если вы являетесь энтузиастом науки о данных, хотите работать над аналитикой данных или изучения машин, и удивляясь, где и как начать, то, что вам нужно будет учиться сначала, – это прочитать и манипулировать набором данных. Работая с аналитикой данных или проблемой изучения машины, вы, скорее всего, будут даны набор данных (вероятно, лист Excel), или вы можете собирать данные из некоторых аппаратных, опросов или некоторых других источников. Когда я впервые начал работать в этой области, у меня было трудно отслеживать наиболее распространенные и широко используемые команды манипулирования набора данных. Я хотел бы поделиться некоторыми из моих самых используемых команд в библиотеке «Пандас» из Python в этой статье. Набор данных, который я использовал для отображения примеров, взяты из Kaggle ( https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009 ). Я использовал Google Colab для запуска моих кодов, которые вы можете легко использовать, посетив ссылку https://colab.research.google.com/notebooks/intro.ipynb#recent=true Отказ Вам необходимо создать новый ноутбук, чтобы написать свои блоки кода.
Сначала вам нужно Загрузить ваш набор данных Google Colab. Для этого вам нужно написать:
from google.colab import files uploaded = files.upload()
Вы получите кнопку, чтобы выбрать файл .csv с вашего компьютера. Как только вы загрузите файл, проверьте, если имя все равно одинаково, потому что Загрузка того же файла несколько раз в том же сеансе изменит название вашего набора данных Отказ
Поскольку ваш файл загружен сейчас, вам нужно прочитать набор данных. Вы будете использовать библиотеку «Pandas», чтобы прочитать файл .csv и упомянуть его как «PD». Полная форма CSV – это значения разделения запятыми, и этот тип формата используется для хранения данных в формате таблицы (или электронной таблицы), со строками и столбцами. Поэтому нам понадобится двумерная структура данных для чтения данных из файлов .csv. Наиболее распространенные двумерные данные в пандах является DataFrames. . Мы принимаем dataframe, обозначенные DF , читая файл .csv и сохраняя содержимое файла в DAFAFRAME DF.
import pandas as pd df = pd.read_csv("winequality-red.csv") df
Вот как выглядит ваши данные. Вы можете найти общее количество строк и столбцов в нижнем левом углу вашего вывода. Есть еще один способ изучить размер вашего набора данных:
df.shape
Вывод: (1599, 12) , где числа означают строки и столбцы последовательно. Поскольку существует ряд столбцов, может возникнуть необходимость знать, какие типы данных, номера, фракции или слова. Чтобы проверить это, напишите:
df.dtypes
Вы можете увидеть некоторые статистические сводки, такие как счет, среднее значение, стандартное отклонение, минимальное и максимальное значение и 25-е, 50 и 75-й процентиль всех столбцов отдельно, используя команду:
df.describe()
Возможно, вы уже заметили, что все строки не отображаются на выходе. Первые и последние строки показаны, а некоторые средние не отображаются и заменяются на «…» вместо этого. Просмотр всех этих рядов может быть слишком много времени, и вы можете просмотреть только несколько строк данных, чтобы проверить, работает ли ваш код. Например, если вы хотите увидеть только Первые пять линий данных:
df.head()
Точно так же, если вы хотите увидеть только последние несколько строк вашего набора данных:
df.tail(3)
Что, если вы хотите увидеть первые 8 строк?
df[:8]
Номер после того, как толстая кишка указывает, сколько строк, начиная с первого ряда (в этом случае, от 0 до 7 ряд), вы хотите увидеть. Теперь, если вы хотите увидеть последние 8 строк, вам придется выяснить 1591-й строк до 1598 ряд. Сделать это:
df[1591:]
Если вы хотите увидеть все строки набора данных в то время вместо «…», сделайте это:
pd.set_option('display.max_rows', None) df
Это позволит вам увидеть все строки в прокручиваемом поле.
Вы также можете Транспонировать Ваше dataframe, это означает, что включает ряды в столбцы и столбцы в строки. Обмен строки и столбцы, напишите:
df.T
Здесь вы не можете видеть все столбцы, и средние заменены на «…» снова. Чтобы изменить его, вы можете написать:
pd.set_option('display.max_columns', None) df.T
Как вы знаете основную команду Pandas Pandas, вы готовы погрузиться в методы манипулирования набора данных.
Оригинал: “https://dev.to/orthymarjan/reading-and-manipulating-your-dataset-with-pandas-3kla”