Автор оригинала: Suchandra Datta.
Пакет Pandas в Python дает вам кучу прохладных функций и функций, которые помогают вам более эффективно управлять данными. Он также позволяет выполнять многочисленные шаги по очистке данных и предварительной обработке данных с очень небольшим количеством хлопот.
Это здорово, не так ли? Вот список некоторых наиболее часто используемых функций и трюков PandaS, которые помогут вам пользоваться вашим путешествием на науке данных.
Как удалить недостающие значения в DataFrame
Избавление от пропущенных ценностей является одной из наиболее распространенных задач в очистке данных. Отсутствующие значения могут быть только через одну строку или столбец или через несколько строк и столбцов.
В зависимости от вашего приложения и проблемного домена вы можете использовать разные подходы для обработки отсутствующих данных, таких как интерполяции, подставляя среднее или просто удаляя строки со стороны отсутствующих значений.
Пандас предлагает Dropna
Функция, которая удаляет все строки (для) или всех столбцов (для), где отсутствуют значения. Некоторые из аргументов для функции Dropna следующие:
Ось
который определяет, если строки должны быть сброшены) или если столбцы должны быть сброшены)подмножество
который указывает список столбцов для рассмотрения пропущенных значений, когдав помещении
который указывает, должны быть сделаны изменения в самом существующем сам DataFrame
Проверьте документы, связанные здесь для более глубокого покрытия.
В приведенном ниже примере мы создаем небольшое dataframe с отсутствующими значениями, а затем отбрасывая строки с отсутствующими значениями в любом столбце.
Как удалить дубликаты в dataframe
Другая общая задача очистки данных – удаление дублированных строк. Drop_Duxicates
Функция выполняет это с аргументами, похожими на Dropna
такой как:
подмножество
, что указывает подмножество столбцов для рассмотрения дублирующего значения, когдана месте
держать
, который указывает, какие дублированные значения для сохранения. Хранить может быть равным первым, последним или ложным, чтобы отбросить все дубликаты.
Проверьте документы, связанные здесь Для получения более подробной информации.
Давайте дублировать несколько строк и удалить их из набора набора:
Как удалить строки с определенными значками
Предположим, мы хотим сохранить только те строки, где тип проекта является в Интернете или где работала количество часов, равна 12. Вот как мы можем это сделать.
Используя этот метод, мы можем отфильтровать строки на основе определенных значений определенного столбца:
Как конвертировать DataFrames в JSON
DataFrames являются супер прохладно оптимизированные структуры, с которыми приятно работать. И JSON является одним из самых популярных форматов данных для бесшовных обмен данных.
Давайте преобразом наше dataframe на JSON, используя to_json
Что требует аргументов, таких как:
Востока
, что указывает, что должно быть ключ и ценные пары. По умолчанию столбцы, поэтому имя столбца – это ключ, и каждый столбец является значением.date_format
который определяет формат даты. По умолчанию эпоха.
Посмотрите на пример ниже:
Мы можем видеть, что to_json
вернул строку со следующей схемой:
column_0 : { row_index_0: column_value_0, row_index_1:column_value_1, ...}, column_1: { row_index_0: column_value_0, row_index_1:column_value_1, ...}, ... column_N: { row_index_0: column_value_0, row_index_1:column_value_1, ...}
Если мы хотим преобразовать каждую строку в словарь, нам нужно указать, что Orient = Records
И разбирайте его с помощью модуля JSON.
Как подсчитать количество уникальных значений в столбце
Допустим, мы хотим знать, сколько существует разных типов проектов. Мы можем получить эту информацию, используя NUNIQUE
функция.
Как сохранить dataframe как файл .csv
Просто одна строка кода требуется для сохранения DataFrame в качестве файла CSV:
dataset.to_csv("save_as_csv.csv")
Как сохранить несколько списков как один .csv файл
Предположим, у нас есть три отдельных списка в качестве нашего источника данных, и мы хотим сохранить их вместе в одном файле CSV. Это просто включает в себя два шага:
- преобразование его в ряд кортежей с помощью zip,
- а затем преобразовывать его в список.
В приведенном ниже примере мы следуем следующему подходу для преобразования трех списков в одном DataFrame, которое мы теперь можем сохранить как файл .csv.
Как читать DataFrames в эффективном порядке памяти
Часто нам нужно читать файлы, которые настолько велики, что они не могут вписаться в память. Для таких наборов данных мамонта мы используем другой подход.
Во-первых, мы создаем TextfileReader
объект. Далее мы указываем параметр под названием Chunksize
Что указывает, сколько рядов файла мы хотим прочитать одновременно, скажем, 4 ряда. Таким образом, мы читаем 4 строки за раз, выполните некоторые задачи на этот кусок и переходите к следующим 4 рядам.
Небольшие кусочки чаще вписываются в память, чем весь файл тысяч строк. В следующем примере показано, как работает хвалить.
Здесь мы читаем Калифорния
DataSet 1000 строк за раз, удалите все ряды, где Median_income
меньше или равно 3, и добавьте эти сокращенные кусочки вместе, чтобы сделать меньший набор данных.
Вы можете сэкономить больше памяти, чтение только те столбцы, которые вам нужны и указывающие меньшие типы данных для столбцов, как описано подробно в документах, связанных с здесь Отказ
Как изменить все значения в DataFrame, используя применить
Давайте вернемся к нашему примеру проектов DataFrame, чтобы проиллюстрировать это. Мы ориентируемся на Часы_worked
Столбец, увеличивая счетчик на 1, если это четное число и на 2, если это нечетное число. Мы используем функцию лямбда для этой цели.
Заключение
Pandas – это мощный пакет, который может показаться пугающим иногда из-за его просторы. Вот почему я пытался перечислить некоторые из самых полезных функций, которыми я столкнулся.
Эти функции Pandas помогут вам ускорить свои усилия анализа данных. Спасибо за ваше время и надеюсь, что вам понравилось читать эту статью.