Рубрики
Без рубрики

Автоматизация и машинное обучение: Совпадение на небесах

Фото Ленина Эстрада на Unsplash Кристофером Бауэрс Машинное обучение и автоматизация вовлечены … Tagged с помощью Python, больших данных, машинного обучения.

Фотография Ленин Эстрада на Неспособный

По Кристофер Бауэрс

Машинное обучение и автоматизация по сути взаимосвязаны в нашем мире. Без автоматизации машинное обучение сводится к созданию сложных расчетов вручную.

Текущие уровни автоматизации ужесточили жизненный цикл машинного обучения и интеграцию моделей в производство. Не только инструменты для автоматизации этих процессов продвигаются, но и математика, участвующая в оптимизации самой модели, также продвигается.

Такие концепции, как последовательная оптимизация на основе модели, дают средства, потенциально, чтобы генерировать жизнеспособную модель без домена или даже опыта, связанных с данными.

В этой статье мы обсудим некоторые инструменты, которую может использовать ваша команда для автоматизации и управления процессами машинного обучения

Инструменты автоматизации и автоматизации

Компании уже вышли на рынок с помощью инструментов Automl Automl. Инструменты, такие как Mlflow, предназначенные для получения входных данных и генерирования оптимизированной модели с минимальным контролем от оператора. Кроме того, существуют инструменты автоматизации, которые имеют более широкие варианты использования, такие как воздушный поток, которые можно использовать для управления статистическими моделями. Это увеличение автоматизации, используемой в сочетании с машинным обучением, обеспечивает необходимую простую точку доступа к мощным прогнозирующим инструментам. Эта легкая точка доступа, однако, может быть очень обманчивой. До сих пор есть много ловушек неграмотных и даже более опытных.

Mlflow

С такими инструментами, как специалисты MLFLOW Data, теперь могут легко автоматизировать сложное отслеживание модели. Mlflow дебютировал на саммите Spark + AI 2018 года и все еще Другой проект Apache Анкет MLFLOW позволяет ученым по данным автоматизировать разработку модели. Через MLFLOW оптимальная модель может быть выбрана с большей легкостью с помощью сервера отслеживания. Параметры, атрибуты и метрики производительности могут быть зарегистрированы на этом сервере, а затем могут использоваться для быстрого карьера для моделей, которые соответствуют определенным критериям. Airflow и Mlflow быстро становятся основными продуктами отрасли для автоматизации внедрения, интеграции и разработки моделей машинного обучения.

Хотя Mlflow является мощным инструментом для сортировки через регистрационные модели, он мало что делает, чтобы ответить на вопрос о том, какие модели должны быть сделаны. Это немного более сложный вопрос, потому что, в зависимости от вашей модели, обучение может занять значительное количество ресурсов, гиперпараметры могут быть неинтуитивными или иными. Даже эти проблемы могут, отчасти, могут быть автоматизированы.

Автоматизация с воздушным потоком

При обсуждении автоматизации, особенно автоматизации с использованием Python, один инструмент упоминается гораздо чаще, чем большинство: Воздушный поток. Воздушный поток начал в 2014 году Maxime Beauchemin в Airbnb. Проект присоединился к программе инкубатора Apache Software Foundation в 2016 году, и в 2019 году Apache Airflow был объявлен как Один из проектов высшего уровня Анкет

Но что делает воздушный поток? Apache Airflow делает работу через Dags (направленные ациклические графики) ветер. Некоторым из вас может быть интересно, как это влияет на машинное обучение. Отличный вопрос! Воздушный поток был назван « Швейцарский армейский нож с трубопроводами данных ». Воздушный поток позволяет пользователю создавать DAG модульных операторов. То есть воздушный поток позволяет кому -то создать весь рабочий процесс в комплекте с временем начала работы и шагами для выполнения ошибок.

Это позволяет выполнять операции параллельно, например, вызов модели для прогноза при загрузке следующей веб -страницы для пользователя. Он легко передается в распределенные системы и масштабируется практически без проблем. Воздушный поток стал основным продуктом автоматизации процессов машинного обучения от ETL до производства и использовался всеми от Adobe to United Airlines . Реализация и интеграция моделей машинного обучения не единственное, что автоматизируется через распространенные пакеты Python.

Автоматическое машинное обучение не должно быть все улово

Поскольку автоматизация становится более сложной, становится заманчивой отвлекать большинство шагов, используемых при разработке моделей машинного обучения. Уже такие продукты, как Cloud Automl от Google и Azure Machine Learning, предлагают пользователям более упрощенный опыт разработки моделей машинного обучения. Хотя эти услуги, безусловно, имеют место для автоматизации машинного обучения, может представить ловушки, которые пользователь должен знать. Первым из которых является понимание данных.

Нельзя ожидать, что автоматическая система поймет качество ввода данных. Как поставщик данных, важно знать, что ваши данные являются представительными для населения, которое вы намерены. Простой поиск «расистского ИИ» может показать, что многие проекты пострадали от этого надзора.

Учитывая это предположение, мы можем сделать вывод, что наборы данных, на которые проходили эти ИИ, вероятно, были либо слишком маленькими, либо искаженными. С кем -то, кто смотрит на данные при обработке, этот вид неудачи часто можно поймать.

Гораздо больше, чем просто качество данных можно найти с помощью обработки данных и некоторого анализа; Automl может препятствовать этим пониманию. Часто, работая с данными, аналитик или ученый для данных может заметить интересную корреляцию или своеобразные точки данных, которые они могут затем исследовать.

В процессе Automl не хватает домена знания или понимания предполагаемого приложения. Частично они могут быть заменены некоторыми умными математическими настройками модели, но регулируя модель вручную снижает полезность Automl, в первую очередь. Несмотря на эти недостатки, Automl может быть невероятно полезным в тех случаях, когда качество данных не является проблемой, особенно если не хватает сотрудников данных для обработки и анализа данных.

Автоматизация и машинное обучение были связаны с самого начала. Вопрос никогда: «Должен ли я использовать автоматизацию в своем проекте машинного обучения?» Скорее «Сколько автоматизации я должен использовать? «Преимущества надлежащего применения автоматизации к проекту могут быть глубокими. Используя воздушный поток и MLFLOW, жизненный цикл машинного обучения может быть ужесточен, и процедурно сгенерированные модели и эксперименты могут быть изучены с большим удобством. Включение математических принципов, таких как оптимизация последовательной модели, может еще больше ужесточить жизненный цикл машинного обучения. Сочетание существующих инструментов автоматизации и принципалов может, фактически, удалить большую часть необходимого навыка. Инструменты Automl невероятно мощны и предоставляют более высокую степень доступа.

Автоматизация и машинное обучение являются инструментами и должны рассматриваться как Такой

Чрезмерная автоматизация имеет тенденцию увеличивать расстояние между профессионалом данных и набором данных о направлении истины. Это препятствует пониманию данных, если не будет целенаправленно инвестировано время в то, чтобы эти профессиональные изучали данные предыдущим. В худшем случае автоматизация тяжелой руки может привести к модели, которая активно наносит ущерб ее предполагаемой пользовательской базе. Несмотря на значимость этих ловушек, они ни в коем случае не предполагают, что автоматизацию следует избегать или просматривать в отрицательном свете.

Автоматизация, как и любой инструмент, который мы используем, просто: инструмент. Его можно использовать хорошо или использовать плохо. Поскольку автоматизация в машинном обучении становится еще более сложной, лучше всего учиться. Понимание процесса автоматизации и того, как он интегрируется с машинным обучением, облегчает видеть, где могут быть потенциальные ловушки, и дает нам лучшее понимание, когда эти инструменты должны использоваться.

Если вы заинтересованы в прочтении дополнительной информации о науке о данных, ознакомьтесь с статьями ниже

4 совета SQL для ученых данных

Как улучшить стратегию, управляемую данными,

Что такое хранилище данных И зачем использовать его

Ошибки, которые разрушают вашу стратегию, управляемую данными,

Кафка против Rabbitmq

5 отличных библиотек для управления большими данными с Python

Оригинал: “https://dev.to/seattledataguy/automation-and-machine-learning-a-match-made-in-heaven-44ep”