Автор оригинала: Team Python Pool.
Алгоритмы машинного обучения получили огромную популярность после статьи Harvard Business Review, в которой “Ученый по данным “назван” самой сексуальной работой 21-го века”. Вот набор алгоритмов в ML для тех, кто начинает с ML.
Машинное обучение выросло настолько, что это самый модный способ решения современных проблем с помощью продвинутого подхода. Вот лучшие 10 МЛ алгоритмов решения проблем для начинающих.
1 – Искусственная Нейронная Сеть
An href=”https://en.wikipedia.org/wiki/Neural_network”>искусственная нейронная сеть является одним из наших коронных достижений. Как показано на рисунке, мы создали несколько узлов, соединенных друг с другом, которые имитируют нейроны в нашем мозге. Проще говоря, каждый нейрон воспринимает информацию через другой нейрон, выполняет над ней работу и передает ее другому нейрону в качестве выходного сигнала. href=”https://en.wikipedia.org/wiki/Neural_network”>искусственная нейронная сеть является одним из наших коронных достижений. Как показано на рисунке, мы создали несколько узлов, соединенных друг с другом, которые имитируют нейроны в нашем мозге. Проще говоря, каждый нейрон воспринимает информацию через другой нейрон, выполняет над ней работу и передает ее другому нейрону в качестве выходного сигнала.
Каждый круговой узел представляет собой искусственный нейрон, а стрелка представляет связь между выходом одного нейрона и входом другого.
Нейронные сети могут быть более полезными, если мы используем их для поиска взаимозависимостей между различными классами активов, а не для прогнозирования выбора покупки или продажи.
2 – K-означает Кластеризацию
В таких алгоритмах машинного обучения цель состоит в том, чтобы маркировать точки данных в соответствии с их сходством. Таким образом, мы не определяем кластеры перед алгоритмом, но вместо этого алгоритм находит эти кластеры по мере продвижения вперед.
Базовая модель будет заключаться в том, что, учитывая информацию о футболистах, мы будем использовать группировку K-implies и называть их в соответствии с их сходством. Впоследствии эти сгустки по склонности нападающего забивать на штрафных ударах или плодотворных ручках, во всяком случае, когда расчет не дается заранее охарактеризованных отметок, для начала.
Кластеризация K-means принесет пользу трейдерам, которые считают, что между различными активами могут быть сходства, которые не видны на поверхности.
3 – Наивная теорема Байеса
Наивный Байес-это известный вероятностный классификатор, который может различать несколько объектов. Он известен своей классификацией в реальном времени благодаря своей скорости и лучшей точности. Прежде всего, теорема Байеса определяет вероятность наступления события.
Например, плод может считаться яблоком, если он красный, круглый и около 3 дюймов в диаметре. Даже если эти признаки зависят друг от друга или от существования других признаков.
Эти свойства независимо друг от друга способствуют вероятности того, что этот фрукт является яблоком, называемым “Наивным”.
Легко и быстро предсказать класс набора тестовых данных. Он также хорошо работает в мультиклассовом прогнозировании.
Наивная байесовская модель проста в построении и особенно полезна для очень больших наборов данных благодаря своему лучшему алгоритмическому подходу.Этот алгоритм превосходит другой алгоритм из-за его способности классифицировать в реальном времени.
4 – Случайный лес
Произвольный расчет леса, предназначенный для устранения части препятствий выбора деревьев.
Нерегулярный лес содержит деревья выбора, которые являются диаграммами выбора, говорящими об их стратегии или вероятности. Эти различные деревья соответствуют одиночному дереву, модели Классификации и регрессии (CART).
Чтобы упорядочить статью, зависящую от свойств, каждое дерево дает характеристику, которая, как говорят, “голосует” за этот класс. В этот момент задний лес выбирает группу с наибольшим количеством голосов. Для рецидива он думает о норме урожайности различных деревьев.
Каждое дерево развивается настолько огромным, насколько можно было бы ожидать при данных обстоятельствах.
Случайный лес работает следующим образом:
- Предположим, что число случаев равно N. Выборка из этих N случаев является обучающим набором.
- Рассмотрим M как число входных переменных; число m таково, что m < M. Лучшее разделение между m и M-это разделение узла. Величина m постоянна по мере роста деревьев.
- Каждое дерево растет как можно больше.
- Суммируя предсказания n деревьев, предсказывайте новые данные.
Собирая прогнозы n деревьев (то есть большую часть голосов за характеристику, нормальную для рецидива), предвосхищайте новую информацию.
5 – Рекуррентные нейронные сети (RNN)
RNN-это наиболее часто используемые и продвинутые алгоритмы машинного обучения. Siri и Google Assistant используют RNN в своем программировании? RNN-это, по сути, тип нейронной сети, которая имеет память, прикрепленную к каждому узлу, что облегчает обработку последовательных данных, то есть одна единица данных зависит от предыдущей.
Одним из способов объяснить преимущество RNN перед обычной нейронной сетью является то, что мы должны обрабатывать слово символ за символом. Если слово “трейдинг”, стандартный узел нейронной сети забудет символ “т” к тому времени, как он перейдет к “д”, тогда как рекуррентная нейронная сеть запомнит это имя, поскольку у нее есть своя память.
6 – Логистическая регрессия
Предсказания линейной регрессии-это непрерывные значения. Они дискретны после применения функции преобразования.
Логистическая регрессия лучше всего подходит для бинарной классификации. Логистическая регрессия изменяется как функция/(1+e^x). Эта функция представляет собой экспоненциальную затухающую кривую, максимальное значение которой равно 1.
Чтобы определить, является ли опухоль злокачественной или нет, переменная по умолчанию равна); переменная x может быть измерением опухоли, например размером опухоли. Как показано на рисунке, логистическая функция преобразует значение x различных экземпляров набора данных в значение от 0 до 1. Если вероятность превышает порог 0,5 (показан горизонтальной линией), опухоль классифицируется как злокачественная.
Уравнение логистической регрессии ^ (b0 +b1*x)/(1 + e^(b0 + b1*x)) преобразуется в ln(p(x)/+ b1*x.
Основная цель регрессии-найти лучшие коэффициенты. Эти коэффициенты позволяют нам уменьшить погрешность в нашем исходе.
7 – ТЕЛЕЖКА
Деревья классификации и регрессии (CART) – это реализация Деревьев решений, включая ID3, C4.5.
Нетерминальными узлами являются корневой узел и внутренний узел. Конечные узлы – это конечные узлы. Каждый нетерминальный узел представляет единственную входную переменную (x) и точку расщепления на этой переменной; конечные узлы представляют выходную переменную (y). Модель состоит в следующем, чтобы сделать прогнозы: пройдите по расщеплениям дерева, чтобы прийти к листовому узлу, и выведите значение, присутствующее в листовом узле.
Дерево решений на рисунке ниже классифицирует, будет ли человек покупать спортивный автомобиль или микроавтобус в зависимости от своего возраста и семейного положения. Если человек старше 30 лет и не женат, мы ходим по дереву следующим образом: “старше 30 лет?” – > да – > ” женат?” -> нет. Следовательно, модель выводит спортивный автомобиль.
8 – PCA
Анализ главных компонентов (PCA) используется для облегчения изучения и визуализации данных за счет уменьшения переменных. Захват максимальной дисперсии данных в новую систему координат с осями, называемыми “главными компонентами”. Каждый компонент представляет собой линейную комбинацию исходных переменных и является ортогональным. Ортогональность между членами указывает на то, что корреляция между этими компонентами равна нулю.
Первый главный компонент фиксирует максимальную изменчивость данных. Второй главный компонент фиксирует оставшуюся дисперсию в данных, но имеет переменные, некоррелированные с первым компонентом. Аналогично, все последовательные главные компоненты фиксируют оставшуюся дисперсию, будучи некоррелированными с предыдущим компонентом.
9 – Априори
Р. Агравал и Шрикант разработали алгоритм Априори в 1994 году. Этот алгоритм поможет вам определить лучшие продукты, которые можно купить вместе на рынке. Такие алгоритмы помогают понять, какие продукты попадают в подобную категорию.
10 – Градиентный бустинг и AdaBoost
Эти повышающие алгоритмы являются одним из наиболее часто используемых алгоритмов машинного обучения для массивных нагрузок данных. Бустинг-это алгоритм ансамблевого обучения, который сочетает в себе прогностическую силу нескольких базовых оценок для повышения надежности.
Итак, выше приведены Топ-10 алгоритмов машинного обучения для начинающих, из которых решения сложных задач можно найти просто. В целом они облегчают жизнь, задачи и работу.
Должен Читать
Вложенные классы в Python Объяснены примерамиПреобразование Python float в строку С использованием 10 различных методовPython SHA256: Реализация и объяснение