Чтение и манипулирование вашим набором данных с пандами (2)

Допустим, вам нужно увидеть только один столбец вашего dataframe. Чтобы увидеть столбец «фиксированной кислотности» нашего набора данных, вам нужно написать:

df['fixed acidity']

Если вы добавите условие в этом столбце, например, если вы хотите увидеть строки, которые имеют фиксированную кислотность, превышающую 9:

df[df['fixed acidity']>9]

Иногда вам могут понадобиться строки с несколькими условиями, добавленными в столбцы:

df[(df['fixed acidity']>9) & (df['citric acid']>0.5)]

Если вам нужно найти определенные столбцы:

df.loc[:,['volatile acidity', 'chlorides']]

Вы можете также захотеть добавить условия с ними, например, вы можете увидеть содержание «летучих кислотности» и «хлоридов» этих строк, которые имеют «фиксированную кислотность» 9.2:

df.loc[df['fixed acidity'] == 9.2, ['fixed acidity','volatile acidity', 'chlorides']]

Вы можете просмотреть строки для конкретных показателей (как обсуждалось в предыдущей главе) тоже, как это:

df.loc[0:3, ['volatile acidity', 'chlorides']]

Теперь, если вы хотите найти определенное значение, например, содержание алкоголя в вине 0 ряд:

df['alcohol'].loc[0]

и вы получите значение 9.4

Вы можете найти находку ряд, используя свой индекс тоже:

df.iloc[100]

Теперь, если вы хотите точно определить значение в этом, например, 1-й атрибут (летучая кислота в этом случае) 100 ряд, попробуйте:

df.iloc[100][1]

И вы получите 0,61, как и ожидалось.

Вы можете найти определенные последовательные строки и столбцы, используя эту команду ILOC, например, первые три столбца 3-го до 7 рядов:

df.iloc[3:8, 0:3]

И не последовательные ряды и колонны тоже:

df.iloc[[71, 122, 400], [0, 2]]

Что, если вы хотите добавить новый столбец в ваше dataframe? Давайте добавим «новую колонку», содержащее слово «HI» для всех строк:

df['new column'] = 'hi'
df.head()

Давайте попробуем изменять значение «нового столбца» 0-го индекса DataFrame, используя ILOC из «HI», чтобы «BYE»:

df.iloc[0, df.columns.get_loc('new column')]= 'bye'
df.head()

Теперь давайте попробуем найти слово начинается с «by ‘(что мы просто добавили) и замените его с« Hello »:

df['new column'].loc[df['new column'].str.startswith('by')] = 'hello'
df.head()

Вы также можете заменить нулевые значения ваших данных, используя Pandas. У нас нет никаких нулевых значений здесь, поэтому давайте сначала введем нулевое значение. Давайте заменим строку «Hello» с NULL. Для этого нам понадобится Numpy Library.

import numpy as np
df['new column'].loc[df['new column'].str.startswith('hel')] = np.nan
df.head()

Чтобы проверить количество нулевых значений, вы можете использовать метод ISNA (), как это:

df.isna().sum()

Этот метод ISNA () также может быть использован для поиска нулевого значения, как это:

pd.isna(df.head())

Давайте заменим нулевое значение с «эй».

df.fillna(value='hey', inplace=True)
df.head()

Если вы хотите бросить нулевые значения, используйте метод DropNa ().

Теперь мы постараемся создать новый Dataframe, используя петлю, где один столбец нового DataFrame будет выглядеть так же, как «новый столбец» нашего DataFrame DF.

rows = []
for i in range(df.shape[0]):
     rows.append(['hi', 'bye'])
df_new = pd.DataFrame(rows, columns=["new column 2", "new column 3"])
df_new.iloc[0, df_new.columns.get_loc('new column 2')]= 'hey'
df_new.head()

Вы можете объединить эти два данных Dataframes, используя их общие атрибуты:

df_merged = df.merge(df_new, left_on='new column', right_on='new column 2')
df_merged.head()

Вы можете внести необходимые вариации в своих операциях слияния, сбрасывая несоответствующие атрибуты или с помощью столбца с общим именем и так далее.

Вы также можете группировать ваши данные DataFrames:

df.groupby(['volatile acidity', 'chlorides']).count().head()

Вы также можете группировать Dataframes, используя другие атрибуты, такие как сумма.

Когда вы закончите с манипулированием ваших данных DataFrames, вы готовы визуализировать ваши данные.

Оригинал: “https://dev.to/orthymarjan/reading-and-manipulating-the-dataset-with-pandas-2-4b32”

Читайте ещё по теме: