Автор оригинала: Ashok Sharma.
Дерево решений является лучшим и простым способом проанализировать последствия каждого возможного выхода, будь то в добыче данных, статистике или на машине. Это подходящий подход для обучения, который можно использовать как для классификации, так и для регрессии.
Дерево решений может помочь в визуально представлять решения и процесс принятия решений. Например: при разработке дерева решений на каждом узле есть другой тип вопроса. Основываясь на типе вопроса, вы можете рассчитать вывод из него.
** Итак, дерево можно определить как – **
- Корень на вершине
- Условия, которые являются внутренними узлами
- Конец ветви, который не разделяется, являясь решением или листом
Настоящий набор данных будет иметь много условий и гораздо больше наборов решений. Большая филиала набор, намного большее дерево, но простой поток не может игнорироваться деревом принятия решений. Вот почему это наиболее выбранный подход в машинном обучении. Создание дерева означает выбор функций и условий для использования для расщепления, с решением, чтобы узнать, когда остановиться. Это может помочь решить как проблемы классификации, так и регрессии.
Подходы к созданию дерева решений
Основываясь на внутренних узелках или условиях, мы можем помочь построить дерево, чтобы задать различные типы вопросов.
1. Джини примесный подход Определение примесей Джини неверная классификация данных. Если набор данных чистый (принадлежащий одному и тому же классу), то неверная классификация равна 0. Если набор данных представляет собой смесь разных классов, то неверность будет высокой.
Шаги для создания дерева решений
- Перечислите все наборы данных для создания дерева решений.
- Рассчитайте все неопределенности или насколько смешаны данные.
- Перечислите все вопросы, которые вам нужно задать.
- Разделите строки в истинные и ложные.
- Определите информацию, основанную на подходе некорректности.
- Обновить самую высокую информацию
- Разделите узлы в соответствии с самой высокой информацией.
Формула примесной Джини J P (I) * (1 – P (I))
Пример :
Take example of a dataset with no mixing no_mixing = [['Tiger'], ['Tiger']] This will give output = 0 some_mixing = [['Tiger'], ['Elephant']] This will give output = 0.5 lots_of_mixing = [['Tiger'], ['Elephant'], ['Giraffe'], ['Grapefruit'], ['Rhino]] This will give output = 0.8
2. Подход на получение информации Подход к получению информации используется, когда необходимо решить, какую функцию разделить на каждом шаге в дереве здания. Этот подход используется, когда вы хотите держать дерево маленьким. На каждом шаге вы решите разделить результат в чистейших дочерних узлах. Обычно используемый тип данных, который чистый, называется информацией. Для каждой информации в здании дерево информационная функция дает нам класс. Сплит, который состоит из самой высокой информации, будет считаться первым разделением, и процесс будет прогрессировать до тех пор, пока все узлы листьев не являются чистыми, или информация становится 0.
Уравнение получения информации:
Информация (родитель) – [вес среднего] * энтропия (дети)
Энтропия помогает контролировать, как дерево решений разбивает данные. Это на самом деле влияет на границы дерева решений.
Преимущества создания модели дерева решений для вашего подхода
- Деревья решений легко понять и создать
- Может обрабатывать любой тип данных, будь то, численный или категориальный
- Требует очень мало обработки данных
- не требует нормализации данных
- не требует масштабирования данных также.
- Отсутствующие значения не влияют на модель
Некоторые недостатки, включая дерево решений в вашем подходе
- Переоборудование
- Требует какого-то измерения
- Параметр тюнинга
- Может создать предвзятые образованные деревья
- Небольшое изменение информации может вызвать много изменений
- Высшее время, необходимое для инициирования изменений
- Неадекватно для применения регрессии и прогнозирования непрерывных ценностей.
Дерево решений – лучшая прогнозная модель, чтобы сделать количественный анализ деловых проблем. Это помогает легко проверить результаты, естественным образом классифицируя проблемы и с модификацией обрабатывают все проблемы регрессии.
Некоторые из общих применений дерева решений
1. Инжиниринг Наиболее важной областью для дерева принятия решений является инженерия, он широко используется в энергопотреблении, неисправной диагностике и управлению здравоохранением. Хотя есть несколько методов, которые могут проанализировать потребление энергии, но дерево решений является наиболее предпочтительным способом. Это метод наиболее оптимизирован как иерархическая структура выдает полезное представление глубокого уровня понимания и информации. Другое приложение в инженерном домене – найти неисправностей, особенно на вращающихся машинах. Обнаружение включает в себя измерение ряда переменных, которые их можно легко оценить через структуру дерева принятия решений.
2. Управление бизнесом Дерево решений – отличный способ извлечения полезной информации из базы данных, которая может быть дополнительно использована для улучшения обслуживания клиентов. Они работали во многих приложениях в нишу бизнеса и управления. Моделирование дерева решений все чаще используется в управлении клиентами и детектированием мошенничества. Например, есть VPN для Mac И вы передаете базу данных, то эти аспекты данных должны быть проанализированы деревом решений, чтобы определить, какая информация правильная будет перенесена через VPN Услуги Отказ Анализ большой базы данных можно сделать, собирая данные человека, а затем предоставление им рекомендации извлеченных данных. Развитое дерево решений также может предложить продукты клиентов, которые они хотели бы приобрести в зависимости от их предыдущих покупок.
3. Фрауд обнаружение Метод детектирования мошенничества решений – это способ обнаружения мошеннического утверждения через статистические методы. Этот подход – это хороший способ решения мошеннических проблем, поскольку он рассматривает все переменные во время процесса моделирования. Многие из предыдущей исследовательской работы обнаружили, что эти деревья решений могут внести значительный вклад в обнаружение из-за высокоточной ставки.
Анализ дерева решений помогает повысить возможности принятия решений коммерческих банков, присваивая им вероятность успеха и неудачи в предоставленной базе данных. Это также помогает идентифицировать заемщики, которые не соответствуют минимальным стандартам критериям, и в будущем также реже будет иметь все минимальные требования.
Заключить : Деревья решений предоставляют подход, который помогает количественному количеству ценностей и вероятность каждого возможного результата решения, позволяя лицам, принимающим решения, чтобы сделать образованный выбор среди различных альтернатив.