Автор оригинала: Team Python Pool.
Топ-10 алгоритмов для науки о данных
href=”https://en.wikipedia.org/wiki/Data_science”>Наука о данных-это будущее. По данным Forbes, патенты на машинное обучение выросли на 34% в период с 2013 по 2017 год, и это только увеличение в ближайшие времена. Наука о данных-это детальное изучение потока информации из колоссальных объемов данных, присутствующих в хранилище организации. Она включает в себя получение значимых идей из необработанных и неструктурированных данных, которые обрабатываются с помощью аналитических, программных и деловых навыков. Итак, давайте рассмотрим основные алгоритмы, используемые в нем. href=”https://en.wikipedia.org/wiki/Data_science”>Наука о данных-это будущее. По данным Forbes, патенты на машинное обучение выросли на 34% в период с 2013 по 2017 год, и это только увеличение в ближайшие времена. Наука о данных-это детальное изучение потока информации из колоссальных объемов данных, присутствующих в хранилище организации. Она включает в себя получение значимых идей из необработанных и неструктурированных данных, которые обрабатываются с помощью аналитических, программных и деловых навыков. Итак, давайте рассмотрим основные алгоритмы, используемые в нем.
1>> Линейная регрессия (LIR)
Линейная регрессия является одним из наиболее известных алгоритмов для науки о данных в статистике и машинном обучении.
Прогностическое моделирование в первую очередь связано с минимизацией погрешности модели или созданием максимально точных прогнозов за счет объяснимости. Он будет заимствовать, повторно использовать и красть алгоритмы из многих различных областей, включая статистику, и использовать их для достижения этих целей.
Представление линейной регрессии представляет собой уравнение, описывающее линию, которая наилучшим образом соответствует соотношению между входными переменными (x) и выходными переменными (y). Нахождение удельных весов для входных переменных называется коэффициентами (B).
Линейная регрессия
Для изучения модели линейной регрессии на основе данных могут быть использованы различные методы, такие как решение линейной алгебры для обычных наименьших квадратов и оптимизация градиентного спуска.
Линейная регрессия широко изучена. Некоторые хорошие эмпирические правила при использовании этой техники заключаются в том, чтобы удалить переменные, которые очень похожи, и удалить шум из ваших данных, если это возможно. Это быстрый и простой метод и хороший первый алгоритм, чтобы попробовать.
2>> Алгоритмы логистической регрессии для науки о данных (LOR)
Логистическая регрессия-это еще один метод в области науки о данных. Это метод перехода к задачам бинарной классификации.
Логистическая регрессия похожа на линейную регрессию в том смысле, что цель состоит в том, чтобы найти значения коэффициентов, которые взвешивают каждую входную переменную. В отличие от линейной регрессии, прогнозирование выходных данных преобразуется с помощью нелинейной функции, называемой логистической функцией.
Логистическая функция выглядит как большой S и преобразует любое значение в диапазон от 0 до 1. Это полезно, потому что мы можем применить правило к выходу логистической функции, чтобы привязать значения к 0 и 1 и предсказать значение класса.
Логистическая регрессия
Как и линейная регрессия, логистическая регрессия работает лучше, когда вы удаляете атрибуты, не связанные с выходной переменной, а также атрибуты, которые очень похожи (коррелированы) друг с другом. Это быстрая модель для изучения и эффективная в задачах бинарной классификации.
3>> Априори
Априори-это алгоритм для науки о данных, используемый в транзакционной базе данных для майнинга частых наборов элементов и последующего создания ассоциативных правил. Он популярен в анализе рыночной корзины, где проверяются комбинации продуктов, которые часто встречаются в базе данных. В общем случае мы пишем ассоциативное правило для “если человек покупает товар X, то он покупает товар Y” как X -> Y.
Мера поддержки помогает сократить количество наборов элементов-кандидатов, рассматриваемых при частой генерации наборов элементов. Эта мера поддержки руководствуется принципом априори. Принцип априори гласит, что если набор элементов является частым, то все его подмножества также должны быть частыми.
Начнем с выбора значения k. Вот, скажем. Затем мы случайным образом назначаем каждую точку данных любому из 3 кластеров. Вычислите центроид кластера для каждого из кластеров. Красные, синие и зеленые звезды обозначают центроиды для каждого из 3-х скоплений.
Затем переназначьте каждую точку на ближайший центроид кластера. На рисунке выше верхние 5 точек были назначены кластеру с синим центроидом. Выполните ту же процедуру, чтобы назначить точки кластерам, содержащим красный и зеленый центроиды.
Затем вычислите центроиды для новых кластеров. Старые центроиды-это серые звезды; новые центроиды-это красные, зеленые и синие звезды.
4>> Деревья Классификации И Регрессии (CART)
Деревья решений являются важным типом алгоритмов для прогностического моделирования, машинного обучения и анализа данных.
Нетерминальными узлами Деревьев классификации и регрессии являются корневой узел и внутренний узел. Конечные узлы – это конечные узлы. Каждый нетерминальный узел представляет единственную входную переменную (x) и точку расщепления на этой переменной; конечные узлы представляют выходную переменную (y). Модель состоит в следующем, чтобы сделать прогнозы: пройдите по расщеплениям дерева, чтобы прийти к листовому узлу и вывести значение, присутствующее в листовом узле.
Представление модели дерева решений представляет собой двоичное дерево. Это ваше двоичное дерево из алгоритмов и структур данных, ничего особенного. Каждый узел представляет собой единственную входную переменную (x) и точку разделения на этой переменной.
Дерево решений
Листовые узлы дерева содержат выходную переменную (y), которая используется для прогнозирования. Предсказания идут по расщеплениям дерева до тех пор, пока не придут к листовому узлу и не выведут значение класса в этом листовом узле.
Деревья быстро учатся и очень быстро делают предсказания. Они также часто точны для широкого круга задач и не требуют специальной подготовки ваших данных.
5 >> Наивные Байесовские алгоритмы для науки о данных (NB)
Наивный Байес-это простой, но удивительно мощный алгоритм Алгоритмов науки о данных для прогностического моделирования.
Модель состоит из двух типов вероятностей, которые вычисляются непосредственно из ваших обучающих данных: 1) Вероятность каждого класса; и 2) Условная вероятность для каждого класса с учетом каждого значения x. После вычисления вероятностная модель может быть использована для предсказания новых данных с помощью теоремы Байеса. Когда ваши данные являются вещественными, обычно предполагается гауссово распределение (колоколообразная кривая), так что вы можете легко оценить эти вероятности.
Наивный Байес
Наивный Байес называется наивным, потому что он предполагает, что каждая входная переменная независима. Это сильное предположение и нереалистично для реальных данных, тем не менее, методика очень эффективна на большом спектре сложных задач.
6>> K-Ближайшие соседи (KNN)
Алгоритм KNN-это очень простой и очень эффективный алгоритм для науки о данных. Модельное представление для KNN-это весь обучающий набор данных. Это итерационный алгоритм, который группирует подобные данные в кластеры. Он вычисляет центроиды k кластеров и назначает точку данных этому кластеру, имеющему наименьшее расстояние между его центроидом и точкой данных.
Предсказания делаются для новой точки данных путем поиска по всему обучающему набору K наиболее похожих экземпляров. Для задач регрессии это может быть средняя выходная переменная, для задач классификации это может быть значение класса режима.
Когда результат для нового экземпляра данных, алгоритм KNN проходит через весь набор данных, чтобы найти k-ближайшие экземпляры к новому экземпляру. Число k экземпляров, наиболее похожих на новую запись, а затем выводит среднее значение результатов или режим для задачи классификации. Значение k задается пользователем.
К-Значит
KNN может потребовать много памяти или места для хранения всех данных, но выполняет расчет только тогда, когда требуется прогнозирование, как раз вовремя. Вы также можете обновлять и курировать свои учебные экземпляры с течением времени, чтобы поддерживать точность прогнозов.
7>> Изучение Алгоритмов векторного квантования для Data Science (LVQ)
Недостатком K-ближайших соседей является то, что вам нужно держаться за весь свой обучающий набор данных. Алгоритм квантования вектора обучения – это алгоритм искусственной нейронной сети.Он позволяет вам выбрать, сколько учебных экземпляров нужно повесить, и точно узнает, как эти экземпляры должны выглядеть.
Обучение Векторному квантованию
Представление для LVQ представляет собой набор векторов кодовой книги. Эти случайные наборы данных вначале адаптируются и наилучшим образом суммируют обучающий набор данных за несколько итераций алгоритма обучения. После обучения векторы кодовой книги можно использовать для предсказания точно так же, как K-Ближайшие соседи.Наиболее похожий сосед вычисляет расстояние между каждым вектором кодовой книги и новым экземпляром данных. Значение класса или для наилучшей совпадающей единицы возвращается в качестве прогноза. Наилучшие результаты получаются, если вы масштабируете свои данные так, чтобы они имели один и тот же диапазон, например от 0 до 1.
Если вы обнаружите, что KNN дает хорошие результаты в вашем наборе данных, попробуйте использовать LVQ, чтобы уменьшить требования к памяти для хранения всего обучающего набора данных.
8 >> Машины опорных векторов (SVM)
Машины опорных векторов, пожалуй, являются одними из самых популярных и обсуждаемых алгоритмов для науки о данных.
Гиперплоскость – это линия, разделяющая пространство входных переменных. В SVM гиперплоскость разделяет точки в пространстве входных переменных по их классу, либо классу 0, либо классу 1.In в двух измерениях вы можете визуализировать это как линию, и давайте предположим, что все наши входные точки разделены этой линией. Алгоритм обучения SVM находит коэффициенты, которые приводят к наилучшему разделению классов гиперплоскостью.
метод опорных векторов
Расстояние между гиперплоскостью и ближайшими точками данных называется краем. Лучшая или оптимальная гиперплоскость, которая может разделить два класса, – это линия с наибольшим запасом. Только эти точки имеют значение при определении гиперплоскости и при построении классификатора. Эти точки называются опорными векторами. Они поддерживают или определяют гиперплоскость. На практике для нахождения значений коэффициентов, максимизирующих маржу, используется алгоритм оптимизации.
SVM может быть одним из самых мощных готовых классификаторов, и его стоит попробовать на вашем наборе данных.
9>> Мешковина И Случайный Лес (BRF)
Случайный лес-один из самых популярных и мощных алгоритмов для науки о данных. Это тип алгоритма ансамблевого машинного обучения, который называется Bootstrap Aggregation или bagging.
Bootstrap-это мощный статистический метод оценки количества по выборке данных. Например, среднее. Вы берете много выборок ваших данных, вычисляете среднее значение, а затем усредняете все ваши средние значения, чтобы дать вам лучшую оценку истинного среднего значения.
В пакетировании используется тот же подход, но вместо этого для оценки целых статистических моделей, чаще всего деревьев решений. Несколько выборок ваших обучающих данных являются моделями для каждой выборки данных. Когда вам нужно сделать прогноз для новых данных, каждая модель делает прогноз и предсказания усредняются.
Случайный лес
Случайный лес-это хитрость в этом подходе, когда деревья решений создают, а не выбирают оптимальные точки разделения. Субоптимальные расщепления вводят случайность.
Таким образом, модели, созданные для каждой выборки данных, отличаются больше, чем они могли бы быть в противном случае. Объединение их прогнозов приводит к лучшей оценке истинного базового выходного значения.
Если вы получаете хорошие результаты с помощью алгоритма с высокой дисперсией, вы часто можете получить лучшие результаты, упаковав этот алгоритм.
10>> Алгоритмы Boosting и Adaboost для Data Science (BA)
Adaboost-это эффективные алгоритмы для науки о данных и означает Адаптивный Бустинг. Пакетирование-это параллельный ансамбль, потому что каждая модель строится независимо. С другой стороны, бустинг-это последовательный ансамбль, где каждая модель строится на основе исправления неправильных классификаций предыдущей модели.
Пакетирование в основном включает в себя “простое голосование”, когда каждый классификатор голосует за получение конечного результата– того, который большинство параллельных моделей; повышение включает в себя “взвешенное голосование”, когда каждый классификатор голосует за получение конечного результата, определяющего большинство,– но последовательные модели строятся путем присвоения большего веса неправильно классифицированным экземплярам предыдущих моделей.
Адабуст
На приведенном выше рисунке шаги 1, 2, 3 включают слабого ученика, называемого пнем решения (1-уровневое дерево решений, делающее прогноз на основе значения только 1 входного признака; дерево решений, корень которого непосредственно связан с его листьями).
Бустинг-это ансамблевая техника, которая пытается создать сильный классификатор из ряда слабых классификаторов. Это делается путем построения модели из обучающих данных, а затем создания второй модели, которая пытается исправить ошибки из первой модели. Модели добавляются до тех пор, пока обучающий набор не будет предсказан идеально или не будет добавлено максимальное количество моделей.
AdaBoost был первым действительно успешным алгоритмом повышения, разработанным для бинарной классификации. Это лучшая отправная точка для понимания бустинга. Современные методы бустинга основаны на AdaBoost, особенно на стохастических градиентных бустерах.
Надо Читать
Python __new__ Explained With ExamplesPython Dynamic Array: Implementation with Examples7 Мощных способов преобразования строки в список в Python
Вывод: Алгоритмы для науки о данных
Подводя итог, мы рассмотрели некоторые из наиболее важных алгоритмов машинного обучения для науки о данных:
- 5 контролируемых методов обучения – Линейная регрессия, Логистическая регрессия, KNN, CRT, Navie Bayes.
- 3 неконтролируемые методы обучения – Apriori, LVQ, SVM.
- 2 техники ансамблирования – Мешкование со случайными лесами, Форсирование с помощью AdaBoost.