Руководство по разработчикам продукта для начала работы с AI - Часть 1: Введение в DataFrames.

TLDR

При работе с AI важно знать, как импортировать наборы данных, прочитать таблицы и понять, какова структура.

Контур

Введение
Прежде чем начать
Загрузка предварительных условий
Мой первый датафарам
Чтение метаданных
Просмотр данных
Анализ данных
Заключение

Введение

Добро пожаловать в Руководство «Разработчики продукта для начала работы с AI». В этой серии мы перейдем к ключевым концепциям и прогомся через примеры, используя Pandas. Во-первых, мы рассмотрим создание среды разработки и изучения того, как осмотреть ваши данные. Тогда вы будете готовы решать более захватывающие части AI на протяжении всей этой серии.

Прежде чем начать

По большей части Google Collab имеет все уже установленные, кроме набора данных, перейдите к моему первому DataFrame. Однако, если вы хотите запустить его локально, последуйте следующий шаг. Мы будем использовать:

Питон
Панда
Воплощение

Загрузка предварительных условий (необязательно)

При работе с AI, 2 важных библиотеки, которые вы будете использовать каждый день, являются Pandas и Numpy. Следуйте по ссылке здесь для получения инструкций по установке Python , Пандас , Numpy и доступа к Google Collab Отказ

Мой первый датафарам

Во-первых, мы начнем с того, как загружать файлы и загрузить наш первый набор данных, Титаник размещены сообществом Пандас на Github. Откройте Google Collab и нажмите на новую кнопку ноутбука.

Нажмите на новый ноутбук

Далее мы начнем, импортируя Titanic.csv для создания вашего первого dataframe. Перейдите на вкладку «Файл» и нажмите «Файл со стрелкой», чтобы загрузить с компьютера.

Нажмите на файл со стрелкой значок для импорта titanic.csv

Затем импортируйте Pandas, Numpy и используйте READ_CSV, чтобы извлечь наши данные CSV в DataFrame.

В начале импортируйте библиотеки и файл через код

Введите имя DataFrame для просмотра его. Здесь мы называем это DF, поэтому в следующей клетке мы введите DF. Для запуска Shift Shift Enter введите или щелкните значок запуска слева.

Отображение всего dataframe.

Чтение метаданных

В отличие от таблицы, DataFrame имеет дополнительные данные за кулисами, называемые метаданными. Метаданные используются для организации его структуры и могут быть просмотрены в Pands с помощью метода описания, информации и столбцов. Допустим, мы хотели узнать, сколько рядов и столбцов содержат непустые значения или сколько хранения принимают данные.

Информация – отличный метод, который разработчики продукта, работающие с SQL, найдут как команда объяснения. Он говорит нам ценную информацию о используемом хранилище, информация столбец, количество рядов, индексов и типов. Все во время организации его в легко читаемую таблицу.

Показать все данные о dataframe

Опишите – это метод, наилучшим образом используется для суммирования численных данных, вычисляя быструю математическое резюме и отображение подсчета, среднего, мин, максимального, стандартного отклонения и проценты.

Выход по умолчанию Описать

Это по умолчанию эквивалентно DF.describe (включает = [NP.Number])

Опишите все номера

Добавляя ключевое слово объекта, опишите искать уникальную, верхнюю и частоту данных для данных объектов, таких как строки и метки времени. Здесь он выбирает столбцы, которые имеют тип данных объекта с вывода.

Опишите все объекты

И наоборот, вы также можете использовать исключение вместо включения, чтобы получить обратные выходы.

Опишите все, что не является объектом

Опишите все, что это не число

Но столбцы – это интересный метод, который используется для чтения метаданных и выбора данных. Чтобы получить метаданные столбца, назовите его на DataFrame, чтобы получить имена индекса.

Показать все имена индексов

Существует два способа выбрать столбец, используя либо позицию индекса, либо имени индекса. Положение индекса можно найти из метаданных информации слева.

Доступ по позиции индекса

Имя индекса можно найти с вывода колонн.

Доступ по имени индекса

Просмотр данных

Но большую часть времени, особенно при работе с AI, у вас будут очень большие наборы данных, и это может быть невозможно или необходимо для отображения всего. Dataframes имеют другие функции для просмотра частей данных, используя метод головки, хвоста, локации и ILOC.

Время использовать Python, чтобы отрубить данные

Давайте посмотрим, используя индексацию с помощью метода головы или хвоста.

Для просмотра данных на первых 5 строках мы используем голову (5)

Головка относится к началу данных DataFrame

Затем, чтобы просмотреть данные для последних 5 строк, мы используем хвост (5)

Хвост относится к концу dataframe

Мы можем просматривать несколько столбцов, используя LOC, указывая индекс строки, обнаруженный слева от DataFrame, а также имена столбцов для просмотра. Поскольку наша строка индекс не подлежит небрежным, мы используем целые числа для быстрого доступа к ним. Команда «:» – установить диапазон значений, чтобы включить все.

Посмотреть каждое имя, билет и проезд

Аналогично выберите, вы также можете использовать позицию индекса с помощью команды ILOC.

Имя, билет и тариф 3, 8 и 9 соответственно

Анализ данных

Сочетая то, что мы узнали, давайте ответим об общих вопросах анализа данных о наборе данных Titian, что данные ученые и маркетинга спрашивают себя каждый день.

Сколько людей на борту Титаника, когда он затонул?

От информации, мы видим, что 889 человек встали на корабль, сколько средняя плата пассажира?
От описания средняя тарифа составляла 32 доллара Какова стандартное отклонение или «std» между ценами на билет?
Из описания STD тарифа составляет 50 долларов, какая была самая высокая стоимость билета?
От описания, максимальный тариф составляет $ 512, кто был первым, кто должен был заплатить за билет?
Используя голову на столбце имени, мистер Оуэн Харрис Браунд Кто был последним человеком, чтобы заплатить за билет?
Используя хвост на столбце Имя, мистер Патрик Дулей Кто был 100-м человеком, чтобы купить билет?
Использование ILOC для ряда 99 колонны [3], поскольку положение начинается с 0, мистер Синай Кантор

Заключение

Это охватывает информацию, описывать и функции столбцов для чтения метаданных и головки, хвоста, локации и ILOC для просмотра данных данных. Проверьте следующую неделю для нашего следующего руководства «Серфинг через DataFrames», где мы посмотрим, как искать в наших импортированных данных, группируя, заказывайте и переставку структуру DataFrame.

Оригинал: “https://dev.to/mage_ai/product-developers-guide-to-getting-started-with-ai-part-1-introduction-to-dataframes-20pg”