Рубрики
Без рубрики

7 этапов машинного обучения

Машинное обучение – это область высокого интереса среди технических энтузиастов. Рассматривается как ветвь искусственного … Помечено машинным обучением, наукой о данных, питоном, искусственным интеллектом.

Машинное обучение – это область высокого интереса среди технических энтузиастов. Рассматриваемый как отрасль искусственного интеллекта (ИИ), это в основном алгоритм или модель, которая улучшается за счет «обучения» и, как следствие, становится все более опытным для выполнения своей задачи. Применение машинного обучения широко распространено, поскольку оно быстро становится неотъемлемой частью различных областей, таких как медицина, электронная коммерция, банковская деятельность и т. Д. Сегодня мы разбили бы машинное обучение как процесс и понимали бы шаги, связанные с его созданием до его практического применения.

Процесс машинного обучения будет разбит в 7 шагах, перечисленных ниже. Чтобы проиллюстрировать значимость и функцию каждого шага, мы будем использовать пример простой модели. Эта модель будет нести ответственность за дифференциацию между яблоком и апельсином. Машинное обучение способно много для сложных задач. Однако для того, чтобы объяснить процесс в упрощенных терминах, представлен основной пример для объяснения соответствующих концепций.

Шаг № 1: Сбор данных

В целях разработки нашей модели машинного обучения нашим первым шагом было бы собрать соответствующие данные, которые можно использовать для дифференциации между двумя фруктами. Различные параметры могут использоваться для классификации фруктов как оранжевого или яблока. Ради простоты, мы будем принимать только 2 функции, которые наша модель будет использовать для выполнения своей работы. Первой особенностью будет цвет самого фрукта, а второй – форма фруктов. Используя эти функции, мы надеемся, что наша модель сможет точно различать 2 фрукта.

Красный Круглый конический Яблоко
Апельсин Круглый Апельсин

Для сбора данных для двух выбранных функций потребуется механизм. Например, для сбора данных о цвете мы можем использовать спектрометр, и для данных формы мы можем использовать изображения фруктов, чтобы их можно было рассматривать как 2D -рисунки. Для сбора данных мы попытались бы получить как можно больше различных типов яблок и апельсинов, чтобы создать различные наборы данных для наших функций. Для этой цели мы можем попытаться искать рынки по апельсинам и яблокам, которые могут быть из разных частей света.

Шаг сбора данных является основой процесса машинного обучения. Такие ошибки, как выбор неправильных функций или сосредоточение внимания на ограниченных типах записей для набора данных, могут сделать модель полностью неэффективной. Вот почему крайне важно, чтобы необходимые соображения были сделаны при сборе данных, поскольку ошибки, допущенные на этом этапе, только усилились по мере того, как мы переходим к последним этапам.

Шаг № 2: Подготовка этих данных

Как только мы собрали данные для этих двух функций, нашим следующим шагом будет подготовка данных для дальнейших шагов. Ключевым направлением этого этапа является распознавание и минимизацию любых потенциальных предубеждений в наших наборах данных для двух функций. Во -первых, мы бы рандомировали порядок наших данных для двух фруктов. Это потому, что мы не хотим, чтобы заказ имел какое -либо отношение к выбору модели. Кроме того, мы рассмотрели наши наборы данных на предмет любого асимметра к конкретному фрукту. Это снова поможет в выявлении и исправлении потенциального смещения, поскольку это будет означать, что модель будет искусно выявить один фрукт, но может бороться с другими фруктами.

Другим основным компонентом подготовки данных является разбивая наборы данных на 2 части. Большая часть (~ 80%) будет использоваться для обучения модели, в то время как меньшая часть (~ 20%) используется в целях оценки. Это важно, потому что использование одних и тех же наборов данных для обучения и оценки не даст справедливой оценки эффективности модели в сценариях реального мира. Помимо разделения данных, предпринимаются дополнительные шаги для уточнения наборов данных. Это может включать в себя удаление дублирующихся записей, отброс неправильных показаний и т. Д.

Хорошо подготовленные данные для вашей модели могут повысить его эффективность. Это может помочь в уменьшении слепых пятен модели, что приводит к большей точности прогнозов. Поэтому имеет смысл обдумать и просмотреть ваши наборы данных, чтобы они могли быть точно настроены для получения лучших и значимых результатов.

Шаг № 3: Выбор модели

Выбор типа модели является нашим следующим курсом действий, как только мы закончим с шагами, ориентированными на данные. Существуют различные существующие модели, разработанные учеными для данных, которые могут использоваться для разных целей. Эти модели разработаны с учетом различных целей. Например, некоторые модели больше подходят для работы с текстами, в то время как другая модель может быть лучше подготовлена для обработки изображений. Что касается нашей модели, то простая линейная регрессионная модель подходит для дифференциации между фруктами. В этом случае тип фруктов будет нашей зависимой переменной, в то время как цвет фруктов и формы фруктов будут двумя предикторами или независимыми переменными.

В нашем примере выбор модели был довольно простым. В более сложных сценариях нам нужно сделать выбор, который соответствует нашему предполагаемому результату. Варианты моделей машинного обучения могут быть изучены в 3 широких категориях. Первая категория – контролируемые модели обучения. В таких моделях результат известен, поэтому мы постоянно совершенствуем саму модель, пока наш выход не достигнет желаемого уровня точности. Модель линейной регрессии, выбранная для нашей модели фруктов, является примером контролируемого обучения. Если результат неизвестен, и нам нужна классификация, которая должна быть выполнена, тогда используется вторая категория, обучение без присмотра. Примеры неконтролируемого обучения включают K-средние и алгоритм Apriori. Третья категория – это подкрепление обучения. Он фокусируется на обучении принимать лучшие решения на основе проб и ошибок. Они часто используются в бизнес -среде. Процесс принятия решений Маркова является его примером.

Шаг № 4: Обучение

В основе процесса машинного обучения лежит подготовка модели. Большая часть «обучения» выполняется на этом этапе. Здесь мы используем часть набора данных, выделенного для обучения для обучения нашей модели для различения между двумя фруктами. Если мы рассматриваем нашу модель в математических терминах, входные данные, то есть наши 2 функции будут иметь коэффициенты. Эти коэффициенты называются весами функций. Также будет постоянная или y-перехват. Это называется смещением модели. Процесс определения их значений имеет пробную и ошибку. Первоначально мы выбираем для них случайные значения и предоставляем входные данные. Достигаемый выход сравнивается с фактическим выходом, и разница сводит к минимуму, пробуя различные значения весов и смещений. Итерации повторяются с использованием различных записей из нашего набора учебных данных, пока модель не достигнет желаемого уровня точности.

Обучение требует терпения и экспериментов. Также полезно иметь знание области, где будет реализована модель. Например, если модель машинного обучения должна быть использована для выявления клиентов с высоким риском для страховой компании, знание того, как работает страховая отрасль ускорить процесс обучения, поскольку во время итераций можно сделать более образованные предположения. Обучение может оказаться очень полезным, если модель начнет преуспеть в своей роли. Это сопоставимо, когда ребенок учится ездить на велосипеде. Первоначально у них может быть несколько падений, но через некоторое время у них лучше понимать процесс и способны лучше реагировать на разные ситуации при езде на велосипеде.

Шаг № 5: Оценка

При обучении модели ее необходимо протестировать, чтобы увидеть, будет ли она хорошо работать в реальных ситуациях. Вот почему часть набора данных, созданная для оценки, используется для проверки мастерства модели. Это ставит модель в сценарий, где она сталкивается с ситуациями, которые не были частью его обучения. В нашем случае это может означать попытку определить тип яблока или апельсин, который является совершенно новым для модели. Однако благодаря своей тренировке модель должна быть достаточно способна экстраполировать информацию и определить, является ли фрукты яблоком или апельсином.

Оценка становится очень важной, когда речь идет о коммерческих приложениях. Оценка позволяет ученым -ученым проверять, были ли достигнуты цели, которые они достигли, или нет. Если результаты не являются удовлетворительными, то предыдущие шаги должны быть пересмотрены, так что коренная причина неэффективности модели может быть идентифицирована и, впоследствии, исправлена. Если оценка не проводится должным образом, то модель может не преуспеть при выполнении желаемой коммерческой цели. Это может означать, что компания, которая разработала и продала модель, может потерять свою добрую волю с клиентом. Это также может означать повреждение репутации компании как будущих клиентов, может стать колебательным, когда речь идет о доверии компании, касающейся моделей машинного обучения. Следовательно, оценка модели необходима для предотвращения вышеупомянутых плохого эффекта.

Шаг № 6: Настройка гиперпараметра

Если оценка является успешной, мы переходим к этапу настройки гиперпараметра. Этот шаг пытается улучшить положительные результаты, достигнутые на этапе оценки. Для нашего примера мы увидим, сможем ли мы сделать нашу модель еще лучше в распознавании яблок и апельсинов. Есть разные способы улучшения модели. Одним из них является пересмотр шага обучения и использует несколько зачистков обучающего набора данных для обучения модели. Это может привести к большей точности, поскольку более длительная продолжительность обучения обеспечивает большую экспозицию и улучшает качество модели. Еще один способ сделать это – усовершенствовать начальные значения, приведенные модели. Случайные начальные значения часто дают плохие результаты, так как они постепенно уточняются испытанием и ошибкой. Однако, если мы сможем придумать лучшие начальные значения или, возможно, инициировать модель, используя распределение вместо значения, наши результаты могут стать лучше. Есть и другие параметры, с которыми мы могли бы сыграть, чтобы уточнить модель, но процесс более интуитивен, чем логичен, поэтому для нее нет определенного подхода.

Естественно, возникает вопрос о том, почему нам нужна настройка гиперпараметра, в первую очередь, когда наша модель достигает своих целей? На это можно ответить, взглянув на конкурентный характер поставщиков услуг на основе машинного обучения. Клиенты могут выбирать из нескольких вариантов, когда они ищут модель машинного обучения для решения своей соответствующей проблемы. Тем не менее, они с большей вероятностью будут соблазнительными из -за того, что дает наиболее точные результаты. Вот почему для обеспечения коммерческого успеха модели машинного обучения настройка гиперпараметра является необходимым шагом.

Шаг № 7: прогноз

Последним этапом процесса машинного обучения является прогноз. Это этап, на которой мы считаем, что модель готова к практическим приложениям. Наша модель фруктов теперь должна быть в состоянии ответить на вопрос, является ли данный фрукт яблоком или апельсином. Модель получает независимость от человеческого вмешательства и делает свой собственный вывод на основе своих наборов данных и обучения. Задача для модели остается, может ли она превзойти или, по крайней мере, соответствовать человеческому суждению в различных соответствующих сценариях.

Шаг прогноза-это то, что видит конечный пользователь, когда они используют модель машинного обучения в своей соответствующей отрасли. Этот шаг подчеркивает, почему многие считают машинное обучение будущим различных отраслей. Сложная, но хорошо выполненная модель машинного обучения может улучшить процесс принятия решений их соответствующих владельцев. Люди могут обрабатывать только определенные данные и соответствующие факторы при принятии решения. С другой стороны, модели машинного обучения могут обрабатывать и связывать большие объемы данных. Эти ссылки позволяют моделям получить уникальное понимание, которое, возможно, не было обнаружено, если бы был принят обычный ручной подход. В результате ценные человеческие ресурсы освобождаются от бремени обработки информации, а затем приходят к решениям. Они могут просто использовать модель машинного обучения в качестве инструмента и принять лучшие решения с гораздо меньшими усилиями.

Вывод

С помощью машинного обучения мы смогли определить, как различать яблоки и апельсины, хотя это может не звучать впечатляющей модели, шаги, которые мы предприняли, одинаковы для большинства моделей машинного обучения. Эти критерии могут измениться в будущем как достижения в области машинного обучения и ИИ в целом, но помните их в следующий раз, когда вам нужно работать над проектом ML:

  1. Сбор данных
  2. Подготовка этих данных
  3. Выбор модели
  4. Подготовка
  5. Оценка
  6. Настройка гиперпараметра
  7. Прогноз

Спасибо за обучение, и не забудьте подписаться, я позирую новый контент на ML, AI, программирование и все, что связано с информатикой несколько раз в неделю.

Счастливого чтения!

Оригинал: “https://dev.to/livecodestream/7-steps-of-machine-learning-4l4k”