Рубрики
Без рубрики

Как я изучаю машинное обучение – неделя 1: Python и Pandas (часть первая)

Содержание: введение в обучение Python DataSframes серии данных Pandas Databes Импорт … с меткой Python, MachineLearning, AI.

Оглавление:

  1. Вступление
  2. Изучение питона
  3. DataTypes Pandas
    1. Ряд
    2. DataFrames
  4. Импорт данных
  5. Экспорт данных
  6. Описывая данные
    1. атрибут dtypes
    2. Атрибут столбцов
    3. Информационная функция
    4. Средняя функция
  7. Просмотр и выбор данных
    1. Функция головы
    2. Хвостовая функция
  8. Логические операторы
  9. Последние мысли

Вступление

После того, как мы сделали Настройка нашей среды Теперь мы можем выполнять реальную работу, и чтобы иметь возможность сделать это, мы должны учиться питон и его библиотека, посвященная анализу данных, Панды Анкет

Изучение питона

Изучение Python очень легко, и если у вас есть какой -либо опыт работы с языком программирования, безусловно, будет легко изучать Python. Я сам не покрываю это только потому, что вы можете найти все, что вам нужно Здесь Анкет или, если вы хотите излишний , Узнайте Python трудным путем

То, что мы будем использовать здесь, особенно списки и Матрицы , но не на трудном уровне. Это будет лишь обзор различных способов отображения данных в пандах, так что не бойтесь, мы все новички здесь.

DataTypes Pandas

Как мы видели в настройке, мы сделаем все на jupyter Notebook Где вы уже должны были импортировать все пакеты, для этого примера я создам новую ноутбука с только пандами.

В пандах есть два основных типа данных, первым является Серия , имя Панды для списка.

Ряд

Теперь давайте создадим еще одну серию, чтобы мы могли представить второй тип данных.

DataFrames

Помните, когда мы говорили о матрицах? Это просто технические названия для таблиц, называемые в Pandas DataFrame Анкет

Импорт данных

Но всегда писать данные утомительны и не эффективны, у нас, вероятно, уже есть все данные, образец или нет, и то, что нам нужно, это Импорт Это.

Наиболее распространенным файлом, используемым для получения данных .CSV, который похож на файл Excel. Я уже поместил файл CSV «Baseball_Players» в главную папку, чтобы я вижу его здесь:

Теперь, чтобы данные для работы, я должен просто напечатать:

Экспорт данных

Как только мы работаем с нашими данными, мы можем их экспортировать, и сделать это очень просто. Но у нас есть проблема, у нас есть дополнительный столбец, который отображает индекс строк, так как это было бы серию данных DataFrame. Чтобы исправить это, мы можем изменить функцию экспорта, добавив параметр, который говорит

index = False

Описывая данные

Прежде чем описать данные, мы должны знать немного деталей, разница между функция и атрибут Анкет Функция – это часть кода, которая может потребовать или не требовать параметров, и которая может изменить данные, он имеет () в конце. Атрибут аналогичен функции, но используется только для визуализации и не имеет кронштейнов, даже если операции подчеркивания совпадают с нормальной функцией.

атрибут dtypes

Используя этот атрибут, мы можем заметить две вещи: во -первых, в выборке есть ошибка и что имя столбцов, которые находятся между кавычками. Во -вторых, теперь мы знаем типы данных, которые мы используем.

Примечание: теперь мне пришлось вручную настраивать все данные между кавычками, и это было просто потому, что этот набор данных составлял всего 10 строк, но в наборе данных, с тысячами данных, такая ошибка может иметь решающее значение.

Атрибут столбцов

Этот атрибут покажет нам все столбцы кадра данных. Но вместо того, чтобы всегда использовать этот атрибут, мы можем просто дать его переменной, которую мы можем использовать при необходимости.

Информационная функция

Эта функция даст нам информацию о наборе данных, над которым мы работаем. Включено использование памяти.

Средняя функция

Эта функция покажет нам более или менее информацию о DataFrame, но Для более точных вариантов вы можете увидеть док

Просмотр и выбор данных

Панды предлагают много полезных функций для отображения данных и их выбора, наиболее полезными являются голова и хвосты.

Функция головы

Вызов функции головы на нашей DataFrame покажет нам первые 5 элементов. Он принимает даже число, чтобы мы могли просмотреть первый n -элемент из того, что мы работаем Идея о том, над чем мы будем работать.

Хвостовая функция

Очень похоже на функцию головы, но вместо первого показано последние элементы данных.

LOC функция

Давайте создадим серию, чтобы проиллюстрировать эту функцию, теперь давайте назовем функцию очень странной и ситуационной, но все же полезно знать.

Функция ILOC

Мы будем использовать тот же массив раньше, чтобы проиллюстрировать, что делает ILOC, он возвращает четвертый элемент серии, все еще начинающийся с 0, ссылаясь на реальную позицию серии.

Как LOC, так и ILOC обладают точными свойствами, аналогичными, когда в Python One печатает строку, за которой следует [], он принимает максимум три параметра, которые являются [Start: Stop: Stepover].

Логические операторы

Чтобы увидеть конкретные столбцы, мы можем ввести два команды: обозначения скобок или точечная нотация имеют одинаковое поведение, это просто предпочтения, но они важны, потому что мы можем отображать определенные строки, использующие их и операторы логических. Это будет работать с любым логическим оператором и позволит нам искать строку или группу рядов с определенной функцией.

Последние мысли

На следующей неделе я напишу вторую часть на Python и Pandas, а затем начну видеть Numpy. Увидимся до следующего раза

Оригинал: “https://dev.to/gabrieleboccarusso/how-i-am-learning-machine-learning-week-1-python-and-pandas-part-one-2mkb”