Рубрики
Без рубрики

Фреймы данных в Python – Быстрый просмотр и сводка

Фреймы данных панд-это вещь красоты. Фреймы данных в Python делают обработку данных очень удобной для пользователя.

Автор оригинала: Pankaj Kumar.

Фреймы данных панд-это вещь красоты. Фреймы данных в Python делают обработку данных очень удобной для пользователя.

Вы можете импортировать большие наборы данных с помощью Pandas , а затем эффективно манипулировать ими. Вы можете легко импортировать данные CSV в фрейм данных Pandas.

Но что такое фреймы данных в Python и как их использовать?

Фреймы данных представляют собой 2-мерную помеченную структуру данных со столбцами, которые могут быть разных типов.

Вы можете использовать фреймы данных для различных видов анализа.

Часто набор данных слишком велик, и невозможно просмотреть весь набор данных сразу. Вместо этого мы хотим увидеть сводку фрейма данных.

В разделе сводка мы можем получить первые пять строк набора данных, а также получить быструю статистическую сводку данных. Кроме того, мы можем получить информацию о типе столбцов, которые у нас есть в нашем наборе данных.

В этом уроке мы узнаем, как отобразить такую сводку для фрейма данных в Python.

Мы будем использовать набор данных California Housing в качестве образца набора данных для этого урока.

1. Импортируйте набор данных в фрейм данных Pandas

Давайте начнем с импорта набора данных в фрейм данных Pandas.

Чтобы импортировать набор данных в фрейм данных Pandas, используйте следующий набор строк:

import pandas as pd
housing = pd.read_csv('path_to_dataset')

Это сохранит набор данных в виде фрейма данных в переменной ‘housing’ .

Теперь мы можем посмотреть на различные типы сводных данных, доступных нам в Pandas.

2. Получите первые 5 строк

После первого импорта набора данных специалисты по обработке данных обычно просматривают первые пять строк фрейма данных . Это дает приблизительное представление о том, как выглядят данные.

Для вывода первых пяти строк фрейма данных используйте следующую строку кода:

housing.head()

Когда вы запустите следующую строку, вы увидите вывод в виде:

Глава

Полный код для отображения первых пяти строк фрейма данных приведен ниже.

import pandas as pd
housing = pd.read_csv('path_to_dataset')
housing.head()

3. Получить статистическую сводку

Чтобы получить статистическую сводку вашего фрейма данных, вы можете использовать метод .description () , предоставленный pandas.

Строка кода для отображения статистической сводки выглядит следующим образом:

housing.describe()

Запуск этой строки кода даст следующий результат.

Описывать

Полный код выглядит следующим образом:

import pandas as pd
housing = pd.read_csv('path_to_dataset')
housing.describe()

На выходе отображаются такие величины, как среднее значение, стандартное отклонение, минимум, максимум и процентили. Вы можете использовать один и тот же код для всех приведенных ниже примеров и заменять только имя функции, как указано в каждом примере.

3. Получите краткое описание данных

Чтобы получить краткое описание типа данных в таблице, вы можете использовать метод .info() , предоставленный Pandas.

Вы можете использовать следующую строку кода, чтобы получить описание:

housing.info()

Результат выглядит так, как показано ниже:

Инфо

Выходные данные содержат строку для каждого столбца набора данных. Для каждой метки столбца вы получаете количество ненулевых записей и тип данных записи.

Знание типа данных столбцов в наборе данных позволяет вам лучше судить об использовании данных для обучения моделей.

4. Получить количество для каждого столбца

Вы можете напрямую получить количество записей в каждом столбце, используя метод .count() в Pandas.

Вы можете использовать этот метод, как показано в следующей строке кода:

housing.count()

Вывод выглядит следующим образом:

считать

Отображение количества для каждого столбца может рассказать вам о любых отсутствующих записях в ваших данных. Впоследствии вы можете спланировать стратегию очистки данных.

Получите гистограмму для каждого столбца в наборе данных

Панды позволяют отображать гистограммы для каждого столбца всего в одной строке кода.

Для отображения гистограмм используйте следующую строку кода:

housing.hist()

После запуска строки выше мы получаем вывод в виде:

Хист

Специалисты по обработке данных часто используют гистограммы для лучшего понимания данных.

Вывод

Этот учебник был посвящен различным типам краткой сводки, которую вы можете получить для фрейма данных в Python. Надеюсь, вам было весело учиться с нами!