Рубрики
Без рубрики

Как подмножаться датафарам в Python?

В этом руководстве мы пройдем несколько способов, чтобы вы могли использовать для подмножества данных DataFrame. Если вы импортируете данные в Python, вы должны знать о данных

Автор оригинала: Pankaj Kumar.

Как подмножаться датафарам в Python?

В этом руководстве мы пройдем несколько способов, чтобы вы могли использовать для подмножества данных DataFrame. Если вы импортируете данные в Python, вы должны знать о кадрах данных. Dataframe – это Двумерная структура данных , i.e., данные выровнены в табличной моде в рядах и столбцах.

Подброс кадров данных – это процесс Выбор набора желаемых строк и столбцов из кадра данных.

Вы можете выбрать:

  • Все строки и ограниченные столбцы
  • Все столбцы и ограниченные строки
  • ограниченные строки и ограниченные столбцы.

Подброс кадров данных важен, поскольку он позволяет получить доступ только к определенной части кадра данных. Это пригодится, когда вы хотите уменьшить количество параметров в вашем кадре данных.

Начнем с импорта набора данных на работу.

Импортировка данных для создания DATAFRAME

В этом руководстве мы используем Калифорнийский корпус набора жилья.

Давайте начнем с импорта данных в DataFrame с использованием Pandas.

import pandas as pd
housing = pd.read_csv("/sample_data/california_housing.csv")
housing.head()
Жилье DataFrame.

Наш файл CSV теперь хранятся в переменной корпуса в качестве кадра данных PandaS.

Выберите подмножество DataFrame с использованием оператора индексации

Оператор индексации – это просто воображение для квадратных скобок. Вы можете выбрать столбцы, строки и комбинацию строк и столбцов, используя только квадратные скобки. Давайте посмотрим на это в действии.

1. Выбор только столбцов

Чтобы выбрать столбец, используя оператор индексации, используйте следующую строку кода.

housing['population']
численность населения

Эта строка кода выбирает столбец с меткой как «население» и отображает все значения строк, соответствующие этому.

Вы также можете выбрать несколько столбцов, используя оператор индексации.

housing[['population', 'households' ]]
Население и домохозяйство

Чтобы подмножаться DataFrame и хранить его, используйте следующую строку кода:

housing_subset = housing[['population', 'households' ]]
housing_subset.head()
Поп и домохозяйство

Это создает отдельный кадр данных как подмножество оригинального.

2. Выбор строк

Вы можете использовать оператор индексации для выбора определенных строк на основе определенных условий.

Например, чтобы выбрать строки, имеющие население более 500, вы можете использовать следующую строку кода.

population_500 = housing[housing['population']>500]
population_500
Больше 500.

Вы также можете дополнительно подмножить кадр данных. Например, давайте попробуем пробовать строки строк от нашего кадра данных File_Subset, который мы создали выше.

population_500 = housing_subset[housing['population']>500]
population_500
Подмножество

Обратите внимание, что два выхода выше имеют одинаковое количество строк (которые они должны).

Подмножество данных DataFrame с помощью Python .loc ()

Отказ Открытый индексатор Это эффективный способ выбрать строки и столбцы из кадра данных. Он также может быть использован для выбора строк и столбцов одновременно.

Важно помнить, что .loc () работает на метках рядов и столбцов. После этого мы рассмотрим .iloc (), который основан на индексе рядов и столбцов.

1. Выбор строк с помощью LOC ()

Чтобы выбрать одну строку с помощью .loc () Используйте следующую строку кода.

housing.loc[1]
Проводить

Чтобы выбрать несколько строк используют:

housing.loc[[1,5,7]]
Проводить

Вы также можете нарезать строки между начальным индексом и окончательным индексом.

housing.loc[1:7]
Нарезка

2. Выбор строк и столбцов

Чтобы выбрать определенные строки и определенные столбцы из кадра данных, используйте следующую строку кода:

housing.loc[1:7,['population', 'households']]
Ряды и колонны

Эта строка кода выбирает строки от 1 до 7 и столбцов, соответствующих населению «Жилье» и «Корпус».

Подмножество DataFrame с помощью Python ILOC ()

ILOC () Функция коротко для Целое местоположение Отказ Он работает полностью на целочисленную индексацию для рядов, так и для столбцов.

Чтобы выбрать подмножество строк и столбцов, используя ILOC (), используйте следующую строку кода:

housing.iloc[[2,3,6], [3, 5]]
Iloc.

Эта строка кода выбирает номер строки 2, 3 и 6 вместе с номером столбца 3 и 5.

Использование ILOC спасает вас от записи полных меток строк и столбцов.

Вы также можете использовать ILOC (), чтобы выбрать строки или столбцы индивидуально, так как LOC () после замены меток целых чисел.

Заключение

Это руководство было о подброшении кадра данных в Python с использованием квадратных скобок, LOC и ILOC. Мы узнали, как импортировать набор данных в кадр данных, а затем, как фильтровать строки и столбцы из кадра данных.