Рубрики
Без рубрики

Как я изучаю машинное обучение – неделя 2: Python и Pandas (часть вторая)

На прошлой неделе мы увидели первые шаги о том, как отображать данные в Пандах на ноутбуке Jupyter, но есть … Теги за машиной обучение, AI, Python, программирование.

На прошлой неделе мы увидели первые шаги о том, как отображать данные в Пандах на ноутбуке Jupyter, но есть еще какая-то работа.

оглавление:

  1. Сравнивая два столбца
  2. Функция групповой группы
  3. Функция участка
  4. Функция HIST.
  5. Что делать, если у вас нет MatPlotlib?
  6. Манипулирование данными
  7. Отсутствующие данные
    1. Не показывая назы
  8. Создание столбца
    1. Через серию
    2. Через список
    3. Через другие столбцы
    4. Через одно значение
  9. Устранение колонна
  10. Перетасовывать датафарам
  11. Сортировка датафарама
  12. Применение функции в столбец
    1. Первая встреча с лямбдой
  13. Последние мысли

Сравнивая два столбца

Если мы анализируем DataFrame, есть вероятность того, что мы не всегда хотим видеть все данные, но просто сравнивать два столбца между ними. Мы можем сделать это с Crosstab Функция, которая принимает в качестве столбцов параметров 2. Здесь мы сравниваем столбец позиции и веса один – функция показывает нам корреляцию между ними.

Функция групповой группы

Groupby – это простая функция, которая позволяет нам определить среднее числовое значение столбца. Это очень полезно при использовании с Среднее функция Теперь мы знаем среднюю высоту различных игроков в нашей команде, основанную на их положении, функция очень полезна в каждом проекте науки о данных.

Функция участка

До сих пор мы видели столы так же, как способ отобразить наши данные, но мы захочем увидеть даже графику наших данных данных, и мы можем сделать это с Матплотлиб Библиотека, которую вы уже должны иметь, и с ее функциями. Прежде всего, мы увидим сюжет один. Теперь мы можем увидеть общую тенденцию веса наших игроков, но увидев, что индекс, отображаемый на оси X, не делает все понятно.

Мы можем указать ось при вызове функции, но это таким образом, выглядит ужасно, если значения оси X слишком велики.

Функция HIST.

Если мы хотим гистограмму, мы можем вызвать выделенную функцию HIST Отказ

Что делать, если у вас нет MatPlotlib?

Но что делать, если у вас нет MatPlotlib на ноутбуке Jupyter? Мы можем исправить эту ситуацию с двумя простыми строками кода:

% matplotlib inline
import matplotlib.pyplot as plt

Мы импортируем MatPlotlib как PLT, чтобы получить доступ к нему быстро, но если вы не знаете, что % MatPlotlib Inline. Вы можете прочитать это здесь

Манипулирование данными

Мы увидели наиболее распространенные способы отображения данных в Пандах, но мы, вероятно, захотите его тоже манипулировать. Чтобы изменить значения в DataFrame, мы должны повторно назначить их. Если мы хотим снизить все наши имена команд бейсбола, мы можем сделать: Потому что все имена строки и строка могут быть изменены с помощью .стр Способ для вызова функции, но как только мы видим датафарам, мы можем заметить, что ничего не изменилось Только если мы повторно назначаем его в столбцу имя, мы можем эффективно изменить данные:

Отсутствующие данные

В идеале, когда мы получаем набор данных, он будет в комплекте со всей информацией, которую мы хотим, но это не общий случай, и хотя это может быть даже полезно, это не концепция новичка. Давайте посмотрим набор данных с некоторыми недостающими значениями. Каждое недостающее значение будет заменено Нан Отказ Способ разрешить это с Refillna и средняя функция, которую мы увидим сейчас, но помните, что это не рекомендуется . Но таким образом, мы не назначили их в dataframe. Пандас давайте манипулируем данные различными способами и чтение через документы Мы можем знать, что если мы устанавливаем значение Iflace функции на True, нам не нужно было повторно назначить. И хотя это показывает нам слишком много десятичных средств, потому что это поплавок, он работает.

Не показывая назы

Но мы всегда не можем заполнить недостающие значения, и если мы хотим просто увидеть строки без них, мы можем сделать это.

Создание столбца

Мы можем иметь Создать Столбец, а Pandas предлагают много способов сделать это.

Через серию

Чтобы создать столбец через серию очень прост: прежде всего, нам нужна серия, а затем назначить его новую колонку:

Чтобы заполнить эти пустоты, мы можем просто пополнить столбец:

Через список

Чтобы создать столбец через список, мы просто назначаем список новым столбце:

Но это отображает ошибку. Прокрутка мы можем прочитать в конце

ValueError: Length of values (5) does not match the length of index (9)

Этот Поскольку, когда мы создаем столбец, используя этот метод, нам нужен список, который имеет ту же длину, что и другие столбцы:

Через другие столбцы

Мы можем захотеть другого столбца на основе значений других столбцов, если, например, мы хотим, чтобы другой столбец, который показывает соотношение между высотой и весом, который мы можем сделать:

Через одно значение

Редко полезно, но все же приятно знать:

Устранение колонна

Для устранения столбца мы называем падение Функция, которая нуждается в качестве параметров, имеющее имя столбца и ось – в строках Pandas – ось 0 и столбец оси 1.

Используя ISPLace, мы даже не можем повторно назначить файл DataFrame, но изменяйте его напрямую, так как вы, вероятно, уже выяснили.

Перетасовывать датафарам

Если мы хотим перетасовать наше dataframe, мы можем сделать это с образец Функция:

Мы создали другое dataframe, чтобы сохранить исходные данные безопасными, а образец функции перетасовали его. Аргумент, который он требует, FRAC , идет от 0 до 1; Где 1 означает, что мы хотим перетасовать все данные DataFrame и другие значения, как 0.2, означает, что мы хотим перемешать только 20% датафарама.

FRAC стоит за Фракция И это вводит важное понятие в науке о данных: возможности компьютера. В реалистичном наборе данных у нас будет DataFrame не из десяти или девяти рядов, но с два миллиона строк и компьютер должен перемешать их все. Это приводит к важному вопросу, который мы должны спросить себя:

“Мой компьютер достаточно мощный?”

Сортировка датафарама

Мы можем отсортировать dataframe с RESET_INDEX Функция, но это имеет проблему:

Чтобы удалить дополнительный индекс, мы можем посмотреть на Документация функции И найти эту интересную линию:

Drop: Bool, false по умолчанию Не пытайтесь вставить индекс в столбцы dataframe. Это сбрасывает индекс до целочисленного индекса по умолчанию.

Давайте попробуем настройку падения в True в функцию:

И как мы видим, это работает.

Применение функции в столбец

Допустим, у нас неверные данные о весе: у нас есть в Libs, но нам это нужно в килограммах, в этом случае мы должны применить функцию на весь столбец, и мы можем сделать это с Применить Функция:

Первая встреча с лямбдой

В предыдущей части что-то новое произошло в призвании функции на столбце: A лямбда Функция Отказ Функция лямбда немного, анонимная функция, которую может иметь любое количество аргументов, но имеет только одно выражение Отказ

power = lambda n : n * n
print(power(5))

Эта простая функция вернет мощность принятого параметра в этом случае 25. Для получения дополнительной информации вы можете пойти здесь Отказ

Последние мысли

Здесь и в последнем посте я написал небольшой сборник, чтобы начать с библиотекой Pandas, на следующей неделе я напишу о Numpy Library. Потому что любой вопрос не стесняйтесь оставить комментарий.

Оригинал: “https://dev.to/gabrieleboccarusso/how-i-am-learning-machine-learning-week-2-python-and-pandas-part-two-3jgo”