Введение в машинное обучение

Введение в машинное обучение (серия 2 частей)

Машинное обучение стало одной из самых обсуждаемых и важных областей существования. Он оказался незаменимым как для роста, так и для эффективности других областей обучения и применения как внутри, так и за пределами мира технологий. Его использование в нашей повседневной жизни очевидно, и его актуальность растет ежедневно. В последние годы его рост, очевидное использование в нашей повседневной жизни и повышение актуальности привели к тому, что машинное обучение стало полевым интересом для тел и отдельных лиц из разных слоев общества. Эта часть надеется упростить и объяснить основные требования, необходимые для начала путешествия в машинное обучение.

Для людей, которые надеются начать путешествие в машинное обучение, как карьеру или как хобби, вам понадобится несколько предпосылок. Вы должны иметь знание соответствующего языка программирования. Самым популярным языком для машинного обучения является Python, поэтому необходимо изучить основы Python. Кроме того, базовые знания статистики также являются важной предпосылкой.

Машинное обучение можно разделить на три процесса: сбор данных, моделирование данных и развертывание.

Сбор данных – это процесс сбора, сбора и группировки информации. Это можно сделать с помощью наблюдений, интервью, анкет и записей.

После того, как данные были сопоставлены, следующим шагом является моделирование данных. Это процесс создания модели для сопоставленных данных. Модель машинного обучения – это файл, который был обучен распознавать определенные типы шаблонов. Модель обучается наборе данных, предоставляя ему алгоритм, который она может использовать для рассуждения и учиться на этих данных. Теперь это критический, если не самый важный процесс в машинном обучении. Чтобы создать модель, есть шесть основных соображений. Они есть:

1. Определение проблемы.

Это краткое описание проблемы, которая должна быть решена. Важно определить проблему, которую вы пытаетесь решить. Есть четыре различных вида машинного обучения в зависимости от типа проблемы. Они есть:

Контролируемое обучение.
Неконтролируемое обучение.
Передача обучения.
Подкрепление обучения.

Характер проблемы должен быть определен, чтобы знать, какой алгоритм/модель должен использоваться и какой метод для оценки приведенных данных.

2. Данные.

Поскольку машинное обучение требуют алгоритмов для поиска шаблонов в данных, данные являются основой для любого проекта машинного обучения. Данные поставляются во многих формах и размерах, но есть два основных вида данных: структурированные и неструктурированные данные. Структурированные данные – это данные, организованные в строки и столбцы. Он находится в формате файлов .csv или .excel, в то время как неструктурированные данные являются неорганизованными данными, состоящими из изображений или аудио. Данные можно просмотреть с помощью ноутбуков, таких как ноутбук Jupyter.

3. Оценка.

Перед моделированием необходимо установить целевую точность для определения ожидания вашей модели. Следует установить возможную точность, потому что модель не может быть на 100% точной, но ее можно обучить, чтобы придать свою наилучшую точность. Процесс определения точности модели называется оценкой, например, 95 -процентная точная модель может работать лучше всего в некоторых областях, но при прогнозировании сердечных заболеваний вам может понадобиться более точная модель. Метрики оценки могут быть созданы для измерения того, насколько хорошо алгоритм машинного обучения предсказывает будущее. Поскольку прогресс достигается в проекте, показатели оценки могут измениться из -за определенных обстоятельств.

4. Функции.

Это еще одно слово для различных форм данных. Что известно о данных данных? Понимаются из функций для анализа данных. Например, в файле продаж автомобилей .CSV имена столбцов (например, тип, одометр, цвет и т. Д.) – все это функции данных о продажах автомобилей. Они также упоминаются как переменные функции. Переменные функции используются для прогнозирования целевых переменных. Переменная функции может быть числовой или категориальной. Процесс получения функций из заданных данных называется функциональным проектированием.

5. Моделирование.

На основании оператора проблемы и данных модель будет выбрана, и это будет дополнительно разделено на три части:

Выбор и обучение.
Настройка.
Сравнение.

Когда пришло время моделировать, данные часто разделяются на три части: обучение, проверка и тестирование. Способность модели машинного обучения хорошо выполнять данные, которых она раньше не видела, называется обобщением. Есть несколько видов алгоритмов для использования при моделировании. Некоторые алгоритмы работают лучше, чем другие в зависимости от типа данных. При выборе модели определенные варианты, такие как размер и тип данных, вступают в игру. Для структурированных данных алгоритмы, такие как XGBOOST и случайный лес, используются в неструктурированных данных, можно использовать глубокое обучение и переносное обучение. Обучение может занять некоторое время в зависимости от того, насколько сложна модель и используемый алгоритм.

Настройка происходит на разделении данных проверки, и модель может быть настроена на различные виды данных. Гиперпараметры используются для настройки алгоритмов в соответствии с моделью.

Хорошая модель даст аналогичный результат по проверке и набору тестов во время сравнения. Во время сравнения модель может не иметь возможности хорошо обобщать, и это может быть вызвано утечкой данных или несоответствием. Исправления могут быть внесены для решения таких проблем.

6. Эксперименты.

Это итеративный шаг шагов 2 – 5. Здесь вы ищете то, что еще можно использовать для улучшения модели и других моделей, которые можно попытаться повысить ее точность и сделать ее лучше.

После того, как модель была построена, следующим шагом является развертывание. Развертывание модели машинного обучения – это просто интеграция модели в производственную среду, чтобы она смогла принять входные и возвратные выходные данные для принятия решений. Он может быть развернут в виде API с рамками Python, такими как Flask и Django, или на фронт с Tensorflow.js. Есть так много других способов сделать это, и это зависит от того, где это необходимо.

Машинное обучение не является решением всех проблем. Для простых проблем, которые можно легко исправить с помощью нескольких строк кода, машинное обучение не требуется, поскольку оно может бомбардировать систему ненужными линиями кода.

Со временем я напишу больше статей на шагах выше. Надеюсь, вам это понравилось!

Благодарю вас!