Новички объяснение науки о данных

Первым набором этого процесса является сборы данных, которое может быть выполнено с помощью SQL -запросов, вызовов API, сетевого скребки или просто загрузки файла, подобного .csv. Для этого краткого обзора я не буду касаться сбора данных.

   import pandas as pd
   import numpy as np
   pd.read_csv('path/data.csv')

То, что это делает, это импорт панд и названия его PD. Затем я вызываю функцию pandas read_csv (), чтобы создать панды. Объект DataFrame с данными. С помощью DataFrame в руке мы можем гораздо легче обратиться к отсутствующим значениям и обрезку данных.

В качестве новичка моя стратегия справляется с отсутствующими ценностями – просто вырезать оскорбительные наблюдения.

DataFrame.dropna()

Вы также можете вставлять значения в данные, такие как среднее или медиана, так как вы можете сохранить остальные данные в строке. Если функция, которую вы вкладываете, важна для цели, будьте осторожны. Было бы лучше испортить как можно меньше с очень коррелированными функциями.

Теперь мы имеем дело с выбросами. Как мы это делаем?

Ты угадал! Я вырезал это дерьмо. Теперь есть много статистических тестов и методов, чтобы определить, что является выбросом. Я действительно не знаю их в данный момент, поэтому я произвольно сокращаю данные. Чтобы быть немного более интеллектуальным, и если у вас есть отдельные тестовые данные, вы можете найти значения min () и max () нарезать данные вашего поезда, чтобы отразить эти значения.

  import matplotlib.pyplot as plt
  smp = DataFrame.sample(100)
  pd.plotting.scatter_matrix(smp)

Первое, на что можно посмотреть, это диагональный график гистограмм. Это показывает нам распределение значений каждой переменной. Для многих методов моделирования мы хотим, чтобы наши функции имели нормальное распределение.

Это нормальное распределение. Если ваше распределение не нормально, что вы можете сделать, кроме паники? Вы можете попытаться преобразовать свои данные.

   DataFrame['log_col'] = np.log1p(DataFrame['col']

Создайте новый столбец со значениями Log Plus, и посмотрите, как это работает. Наука данных итеративна, поэтому, если это не работает, попробуйте что -то другое.

Итак, у нас есть наши данные, где мы хотим. Теперь мы выбиваем модели. Пакет Go To Python для моделирования-Scikit-Learn Я рекомендую посетить https://scikit-learn.org/dev/index.html Это универсальный магазин для всего машинного обучения.

Прежде чем бросить свои данные в модель, вам нужно сделать пару вещей. Разделите свои данные на поезде и набор тестов. Модель обучается на наборе поезда и протестирована на тестовом наборе. Довольно себя объясняет. Далее масштабируйте данные вниз. Модели счастливы, когда все уменьшается до 1, так что коэффициенты остаются управляемыми. Некоторые из Sklearn Sclers также могут помочь с выбросами.

Вы могли бы подумать, что именно там начинается настоящая работа, и вы ошибаетесь. Вы только что выполняли большую часть работы, выполняя очистку, разведку и инженерию данных.

Я прикасаюсь к выбору модели в будущем посте, который я свяжу здесь

Оригинал: “https://dev.to/dlisk92/a-novices-explanation-of-data-science-160i”

Читайте ещё по теме: