Модель должна соответствовать этим предположениям, чтобы получить наилучшую линейную регрессию, соответствовая данным.
– Все изображения (графики) генерируются и изменяются автором.
Вступление
Сначала линейная регрессия – это метод моделирования лучшего Линейные отношения между независимый переменные и Зависимый переменные. Самая простая форма линейной регрессии может быть определена следующим уравнением с одной независимой и одной зависимой переменной:
x независимая переменная, y зависимая переменная, β1 это коэффициент x, то есть наклон, β0 это перехват (постоянная), которая сообщает расстояние линии от начала координат на оси y.
Линейные типы регрессии
1. Простая линейная регрессия – Самая простая форма регрессии, которая включает в себя одну независимую переменную и одну зависимую переменную, которая объясняется выше, где мы вписываем линию к модели.
2. Множественная линейная регрессия – Сложная форма регрессии, которая включает в себя несколько независимых переменных и одну зависимую переменную, которая может быть объяснена следующим уравнением:
x1 к xn независимая переменная, y зависимая переменная, β1 к βn являются коэффициентами соответствующих x функций и β0 это перехват (постоянная), которая сообщает расстояние линии от начала координат на оси y.
Предположения в линейной регрессии
1. Линейные отношения – предполагается и понимается, что связь между независимыми переменными и зависимыми переменными является линейной , то есть коэффициенты должны быть линейными, что мы узнаем, используя модель, здание и прогнозирование.
Переменные предиктора рассматриваются как фиксированные значения и могут быть любой сложной функцией, такой как многочлен, тригонометрический и т. Д. Но коэффициенты будут строго линейными с переменной предиктора.
Это предположение используется для реализации Полиномиальная регрессия , который использует линейную регрессию, чтобы соответствовать переменной отклика в качестве произвольной полиномиальной функции переменной предиктора, которая также делает линейную связь с коэффициентами.
2. Гомоскедастичность (постоянная дисперсия) – Предполагается, что остаточные термины (то есть «шум» или случайное нарушение в связи между функциями и целью) должны иметь постоянную дисперсию, то есть термин ошибки одинаково по разным значениям независимых функций, независимо от Значения переменных предиктора.
В распределении не должно быть четкой картины, и если есть определенная картина, данные гетероскедастические. Самый левый график не показывает определенного рисунка между терминами ошибки, то есть распределение постоянно изменяется, тогда как средний график показывает шаблон, при которой ошибка уменьшается, а затем увеличивается, с оценочными значениями, нарушающими правило постоянной дисперсии, а самый правый график также раскрывает конкретный шаблон где термины ошибки уменьшаются с прогнозируемыми значениями, представляющими гетероскедастичность. Два или более нормальных распределений являются гомоскедастическими, если они имеют общую ковариационную (или корреляционную) матрицу.
3. Многомерная нормальность — Предполагается, что термины ошибок обычно распределены, то есть среднее значение по ошибке равно нулю, а сумма членов ошибок также равна нулю. Менее широко известный факт заключается в том, что, поскольку размер выборки поднимается высоким, предположение о нормальности для остатков больше не требуется.
Приведенный выше график Q-Q показывает, что ошибки или остатки обычно распределены. Термин ошибки можно рассматривать как совокупность некоторых незначительных остатков или ошибок. По мере увеличения количества этих незначительных остатков распределение термина ошибки имеет тенденцию приближаться к нормальному распределению. Эта тенденция называется центральной предельной теоремой, в которой T-критерий и F-тест применимы только в том случае, если термин ошибки обычно распределяется.
4. Нет мультиколлинеарности -Мультиколлинеарность определяется как степень взаимосвязи между независимыми переменными, используемыми в модели. Предполагается, что независимые переменные функции не совсем или не менее коррелированы друг с другом, что делает их независимыми. Таким образом, в практической реализации корреляция между двумя независимыми функциями не должна превышать 30%, поскольку она ослабляет статистическую силу построенной модели. Для идентификации высоко коррелированных функций можно использовать парные графики (график рассеяния) и тепловые карты (матрица корреляции).
В модели не следует использовать высоко коррелированные особенности для поддержания прочной взаимосвязи между моделью и всеми ее функциями, присутствующими, поскольку функции имеют тенденцию меняться в унисон. Следовательно, с изменением одной функции изменение в коррелированной функции не делает последнюю постоянную, поскольку модель требует этого при прогнозировании результата с использованием взвешенных коэффициентов, и ожидаемая интерпретация коэффициента регрессии не соответствует.
5. Нет автоматической корреляции -Предполагается, что не должно быть автоматической корреляции среди функций в данных. Это происходит в основном, когда существует зависимость между остаточными ошибками, то есть остаточная ошибка не должна коррелировать положительно или отрицательно, и она должна иметь хорошее распространение повсюду. Обычно это происходит в моделях временных рядов, где следующий мгновение зависит от предыдущего момента. Наличие корреляции в остаточных терминах также снижает предсказуемость модели.
Автокорреляция может быть проверена с помощью теста Дурбин-Уотсона. Статистика испытаний Дурбин-Уотсон определяется как:
Статистика испытаний Дурбин-Ватсона всегда будет иметь значение от 0 до 4. Точное значение 2,0 утверждает, что в выборке не обнаружена автокорреляции. Значения между 0 и 2 указывают на положительную автокорреляцию, а значения между 2 и 4 указывают отрицательную автокорреляцию.
6. Нет экстраполяции – Экстраполяция – это оценка, которая может существовать за пределами исходного диапазона наблюдений. Предполагается, что обученная модель сможет предсказать значения для зависимой переменной на независимых значениях функций только для данных, которые лежат в диапазоне учебных данных. Следовательно, модель не может гарантировать прогнозируемые значения, которые находятся за пределами диапазона обученных независимых значений функций.
Вывод
Мы объяснили наиболее важные предположения, которые должны быть сосредоточены перед реализацией модели линейной регрессии к данному набору данных. Эти предположения являются лишь формальной мерой для обеспечения того, чтобы предсказуемость встроенной линейной регрессионной модели была достаточно хороша, чтобы дать нам наилучшие возможные результаты для данного набора данных. Эти предположения, если не удовлетворены, не останут строительства линейной регрессионной модели, но обеспечат хорошую уверенность в предсказуемости модели.
Спасибо за чтение. Вы можете найти мой другой Связанные здесь посты машинного обучения Анкет
Что делает логистическую регрессию алгоритмом классификации? | от Sparsh Gupta | Июля, 2020 | К науке о данных
Sparsh Gupta ・ 3 июля 2020 г. ・ 6 мин. Читайте на направлении adatascience.com
Я надеюсь, что этот пост был полезен. Я ценю обратную связь и конструктивную критику. Если вы хотите поговорить об этой статье или других связанных темах, вы можете написать мне текст здесь или в LinkedIn Анкет
Оригинал: “https://dev.to/imsparsh/assumptions-in-linear-regression-you-might-not-know-58c6”