Рубрики
Без рубрики

Itro в Spyder IDE с использованием Python Pandas

В больших наборах наборах можно очень сложно извлечь необходимую информацию вручную. Python он … Теги с датошими, начинающими, производительностью, Python.

В больших наборах наборах можно очень сложно извлечь необходимую информацию вручную. Python помогает автоматизировать или сильно уменьшить работу, необходимую для представления соответствующего набора данных. Python тяжелый на синтаксизе английского языка для продвижения низкой кривой обучения и повысить средний опыт конечного пользователя

Библиотеки Python помогают сэкономить время, давая вам предварительно письменный код! Мы перерабатываем ранее созданные функции, чтобы сэкономить время в США для настройки наших мощных инструментов анализа данных. Без них многие программы были бы значительно большие и повторяющиеся и экономит время конечных пользователей для выполнения заданий.

Pandas – это инструмент Premier Data Science. Он читает в больших наборах данных, таких как файлы .csv или базы данных SQL и могут помочь извлечь данные на основе значимого диапазона значений и/или показателей. Он также имеет наборы статистических команд, чтобы получить средние значения, суммы, медианы и т. Д. Он также имеет функции очистки данных, полезные для удаления неполных записей (нулевые значения) и могут присоединиться к настройкам данных для получения более полной презентации.

Пандас стал одним из самых популярных инструментов во всех компьютерных науках, составляет почти 1% всех вопросов переполнения стека с 2017 года. Создатель Пандас, WES McKinney, создал инструмент, чтобы помочь всем формам аналитиков. Он говорит: «Я говорю им, что это позволяет людям анализировать и работать с данными, которые не являются экспертными компьютерными учеными … Вам все еще нужно написать код, но он делает код интуитивным и доступным. Это помогает людям выходить за рамки просто используя Excel для анализа данных ».

Сегодня мы пройдемся по некоторым основаниям панды и используем различные команды. Этот уход будет использовать IDE Spyder от Анаконда Отказ После установки перейдите к приборной панели приложения, затем откройте новую папку ANACONDA3 и нажмите на SPYDER. Прежде чем мы сможем сделать любую работу, мы должны установить Pandas через нашу консоль. Некоторые редакторы имеют основные пакеты предварительно установленные, но всегда проверяют заранее.

Общий способ установки пакетов:

pip install 

В Spyder: нажмите на консоль в правом нижнем углу и введите следующую команду ниже:

pip install pandas

Наконец, нам понадобится данные для работы с Отказ После загрузки нажмите «Показать в папке», чтобы вы знали его каталог. Если в azip, перейдите в .zip и скопируйте CSV, вернитесь к исходному каталогу и вставьте.

Список дел

1. Установите и создавайте наборы данных (Готово!)

2. Использование команд для извлечения данных

3. Изменить наши набор данных

4. Слияние и представление информации

Извлечение наших данных

Поздравляю! У нас есть установлена наша библиотека, и наши данные набор для работы с. Теперь перейдите в Spyder и в левом терминале нажмите Enter, затем введите следующее, чтобы получить доступ к библиотеке Pandas:

import pandas as pd

Часть «Импорт Пандас» теперь включает в себя всю библиотеку для нас для использования. Часть «AS PD» является использование PD в качестве ярлыка при вызове функций библиотеки. Итак, теперь мы не вводим панд. (FUNCTION_NAME) каждый раз, но вместо PD. (FUNCTION_NAME). Эффективность Yay! Наша первая строка кода будет получение наших данных в объект dataFrame (найдите ваши данные!) Введите местоположение файла вашего файла .csv в функцию pd.read_csv (“Файл”), затем нажмите кнопку Green Play, чтобы запустить программу. На Spyder есть вкладка под названием Переменная проводник в середине справа. Нажмите на него, и вы должны увидеть новый объект DataFrame размера (215,15).

DataFrame похоже на таблицу Excel, которую мы можем напрямую редактировать с помощью нашего кода. При создании DataFrame, который не обязательно импортируется с помощью Read_CSV, вы можете напрямую создать файл dataframe в следующем формате:

alt = pd.DataFrame({'col A':[1,2], 'col B':[3,4]})

Результат:

alt. (2,2) Dataframe. Имена столбцов: А, Б.

У нас есть наши данные с нами, но это очень велико, поэтому мы могли бы смущаться как отношение к этому сейчас … Вот несколько примеров команд для использования:

  • data.head (): Возвращает 5 лучших рядов
  • data.tail (): Возвращает нижние 5 рядов
  • data.head (x)/хвост (x): Возвращает х верхние/нижние строки
  • data.sort_values (COL1): Сортировка данных по возрастанию на основе COL1
  • data.sort_values (COL1,): сделаю то же самое, но отсортировано в порядке убывания

Разница между головой () и головой (X):

data.head ():

данные (5,15) Dataframe. Имена столбцов: sl_no, gender, ssc_p, ssc_b, hsc_p, hsc_b, hsc_s, степень …

data.head (10):

данные (10,15) Dataframe. Имена столбцов: sl_no, gender, ssc_p, ssc_b, hsc_p, hsc_b, hsc_s, степень …

Получение верхней и нижней 6 зарплат

На странице Kaggle, используемой для загрузки нашего CSV, есть часть страницы, предоставляющая определения для заголовков столбцов наших данных, включая зарплату. Используйте его, и вновь изученные команды: Получите 6 самых высоких и самых низких записей заработной платы из нашего набора данных.

Совет: вызов данных.head () Возвращает текстовый ответ, но для нового dataframe, write.head ()

salary = data.sort_values(["salary"])

bottom = salary.head(6)
top = salary.tail(6)

Таким образом, вы получите 200 000 за 6 дна зарплаты, но 6 лучших зарплат были нан. Это не говорит нам, что мы действительно хотим. Мы можем отфильтровать нулевые данные (например, здесь, где не было предложено):

salary.dropna(subset=["salary"], inplace = True)

Dropna () избавляется от нулевых значений, а подмножество аргументов означает, что мы можем удалить нулевые значения в определенном столбце (здесь мы используем зарплату). Inplace – это выбирать между перезаписью одного и того же объекта или создать новый). Следующий код вернет ненулевые значения:

salary = data.sort_values(["salary"])

salary.dropna(subset-["salary"], inplace = True)
bottom = salary.head(6)
top = salary.tail(6)

Изменение наших данных

Скажем, я хочу среднее значение определенного набора, или, возможно, я просто хочу, чтобы самый высокий процент от каждого столбца. Пандас оснащен различными командами, такими как выше, которые могут помочь нам запросить DataSaet для соответствующей информации.

data.max () и data.min () вернут наибольшее/самую низкое значение каждого столбца, данные [‘col1’]. max () возвращает наибольшее значение в полученном столбце. Аналогичная реализация для .mean (), .median (), .sum (), .count (), .std () [стандартное отклонение] и многое другое.

Для нашего набора данных:

Data.max () значения

данные [«зарплата»]. MAX () значение

Data.mean () значения, так как другие 8 столбцов не численные

Получить медиану, сумму и макс

Давайте получим медиану и сумму из 100 лучших зарплат, а также MAX MBA_P из этих 100 кандидатов

Подсказка: Как зарплаты сортируются прямо сейчас?

salary = data.sort_values(["salary"],ascending=False)

hundred = salary.head(100)
sum_hun = hundred["salary"].sum()
med_hun = hundred["salary"].median()
max_mba = hundred["mba_p"].max()

Во-первых, мы сортируем данные по убыванию по порядку и получаем новый Dataframe с .head (). Затем мы создаем нашу сумму, медианы и максимальные значения, вызывая их соответствующие команды на новом «сотне» DataFrame.

Объединение новых данных

Что, если я захочу посмотреть, как все проценты собираются и возьмите среднее значение? Может быть, это можно сделать с уже данными инструментами, но теперь я хочу добавить его в наш оригинальный набор в качестве нового столбца.

Есть два способа добавить данные: .append. () и .concat. (). Приложение – добавить DataFrame с идентичными индексами строки (одинаковые значения столбцов), а .Concat () добавляет идентичные индексы колонны (то же строки).

Формат кода: быть добавленным, мы хотим обновить .Append (data2) data.concat ([data1, data2])) Добавьте два столбца с: [COL1] + данные [COL2] Примечание: Это создает серийный объект, а не датафарам Добавьте серию в DataFrame, создавая новый столбец: данные [“Новые

Пример:

one = pd.DataFrame({'A': [1], 'B': [3]})
two = pd.DataFrame({'A': [2], 'B': [4]})
one = one.append(two,ignore_index=True)

2 Размер (1,2) DataFrames сливается в (2,2) новый объект. IGNORE_INDEX работает как помещение ранее.

Совокупные старые проценты, чтобы создать новый

Давайте возьмем 5 процентов в нашем исходном наборе данных, суммируйте их в один столбец (и разделите на 5 с данными), верните среднее значение столбца и добавьте этот столбец в наш исходный набор данных.

Подсказка: Вы можете добавить столбцы вместе!

new_data = data["ssc_p"] + data["hsc_p"]
new_data = new_data + data["degree_p"]
new_data = new_data + data["etest_p"]
new_data = new_data + data["mba_p"]
new_data /= 5
data["Mean"] = new_data

Мы создаем объект серии, добавив два столбца из данных вместе. Мы продолжаем добавлять соответствующий процент аналогичной моды, а затем разделите количеством процентов, которые мы используем. Теперь, когда у нас есть в среднем нашему мастеру, есть новый столбец, который мы можем добавить в наш исходный набор данных, которые мы можем сделать это, непосредственно называя новый столбец для нашего DataFrame.

Объединение двух наборов соответствующих данных

Получите 5 самых высоких MBA_P и 5 самых высоких кандидатов ETEST_P и объединить их набор данных до 10 “Premier Candidates”

Подсказка: Два данных DataFrames разделяют одни и те же индексы столбца

mba = data.sort_values(["mba_p"],ascending=False)
etest = data.sort_values(["etest_p"],ascending=False)
mba_top = mba.head()
etest_top = etest.head()
mba_top = pd.concat([etest_top,mba_top])

Сначала мы должны создать два новых, сортированных данных данных. Мы снимаем 5 лучших из обеих новых наборов данных в другую пару данных данных, и мы используем команду .Concat (), чтобы сделать одну из наших пар окончательного набора данных.

Поздравляю!

С этим учебным пособием мы научились сортировать информацию о данных и изолировать, а также игнорировать неактуальные или неполные данные. Затем мы могли бы создать новые подмножества данных для будущего анализа и читаемости. Наконец, мы получили возможность добавлять данные для создания более полного набора данных.

Оригинал: “https://dev.to/bitproject/intro-to-spyder-ide-using-python-pandas-2onk”