Автор оригинала: Pankaj Kumar.
Фреймы данных панд-это вещь красоты. Фреймы данных в Python делают обработку данных очень удобной для пользователя.
Вы можете импортировать большие наборы данных с помощью Pandas , а затем эффективно манипулировать ими. Вы можете легко импортировать данные CSV в фрейм данных Pandas.
Но что такое фреймы данных в Python и как их использовать?
Фреймы данных представляют собой 2-мерную помеченную структуру данных со столбцами, которые могут быть разных типов.
Вы можете использовать фреймы данных для различных видов анализа.
Часто набор данных слишком велик, и невозможно просмотреть весь набор данных сразу. Вместо этого мы хотим увидеть сводку фрейма данных.
В разделе сводка мы можем получить первые пять строк набора данных, а также получить быструю статистическую сводку данных. Кроме того, мы можем получить информацию о типе столбцов, которые у нас есть в нашем наборе данных.
В этом уроке мы узнаем, как отобразить такую сводку для фрейма данных в Python.
Мы будем использовать набор данных California Housing в качестве образца набора данных для этого урока.
1. Импортируйте набор данных в фрейм данных Pandas
Давайте начнем с импорта набора данных в фрейм данных Pandas.
Чтобы импортировать набор данных в фрейм данных Pandas, используйте следующий набор строк:
import pandas as pd housing = pd.read_csv('path_to_dataset')
Это сохранит набор данных в виде фрейма данных в переменной ‘housing’ .
Теперь мы можем посмотреть на различные типы сводных данных, доступных нам в Pandas.
2. Получите первые 5 строк
После первого импорта набора данных специалисты по обработке данных обычно просматривают первые пять строк фрейма данных . Это дает приблизительное представление о том, как выглядят данные.
Для вывода первых пяти строк фрейма данных используйте следующую строку кода:
housing.head()
Когда вы запустите следующую строку, вы увидите вывод в виде:
Полный код для отображения первых пяти строк фрейма данных приведен ниже.
import pandas as pd housing = pd.read_csv('path_to_dataset') housing.head()
3. Получить статистическую сводку
Чтобы получить статистическую сводку вашего фрейма данных, вы можете использовать метод .description () , предоставленный pandas.
Строка кода для отображения статистической сводки выглядит следующим образом:
housing.describe()
Запуск этой строки кода даст следующий результат.
Полный код выглядит следующим образом:
import pandas as pd housing = pd.read_csv('path_to_dataset') housing.describe()
На выходе отображаются такие величины, как среднее значение, стандартное отклонение, минимум, максимум и процентили. Вы можете использовать один и тот же код для всех приведенных ниже примеров и заменять только имя функции, как указано в каждом примере.
3. Получите краткое описание данных
Чтобы получить краткое описание типа данных в таблице, вы можете использовать метод .info() , предоставленный Pandas.
Вы можете использовать следующую строку кода, чтобы получить описание:
housing.info()
Результат выглядит так, как показано ниже:
Выходные данные содержат строку для каждого столбца набора данных. Для каждой метки столбца вы получаете количество ненулевых записей и тип данных записи.
Знание типа данных столбцов в наборе данных позволяет вам лучше судить об использовании данных для обучения моделей.
4. Получить количество для каждого столбца
Вы можете напрямую получить количество записей в каждом столбце, используя метод .count() в Pandas.
Вы можете использовать этот метод, как показано в следующей строке кода:
housing.count()
Вывод выглядит следующим образом:
Отображение количества для каждого столбца может рассказать вам о любых отсутствующих записях в ваших данных. Впоследствии вы можете спланировать стратегию очистки данных.
Получите гистограмму для каждого столбца в наборе данных
Панды позволяют отображать гистограммы для каждого столбца всего в одной строке кода.
Для отображения гистограмм используйте следующую строку кода:
housing.hist()
После запуска строки выше мы получаем вывод в виде:
Специалисты по обработке данных часто используют гистограммы для лучшего понимания данных.
Вывод
Этот учебник был посвящен различным типам краткой сводки, которую вы можете получить для фрейма данных в Python. Надеюсь, вам было весело учиться с нами!