Рубрики
Без рубрики

Корреляционный регрессионный анализ в Python – 2 простые пути!

Здравствуйте, читатели! Сегодня мы будем сосредоточиться на корреляционном анализе регрессии в Python.

Автор оригинала: Pankaj Kumar.

Корреляционный регрессионный анализ в Python – 2 простые пути!

Здравствуйте, читатели! Сегодня мы будем сосредоточиться на Корреляционный регрессионный анализ в питоне.

Итак, давайте начнем!

Во-первых, что такое корреляция среди переменных?

Давайте попробуем понять концепцию корреляции в контексте науки о науке и машине!

В области науки о данных и Машинное обучение Первичный шаг состоит в том, чтобы проанализировать и очистить данные для дальнейшей обработки.

В предложении предварительной обработки данных очень важно знать влияние каждой переменной/столбцы на другие переменные, а также на переменной ответа/целевой перемычки.

Это когда корреляционный регрессионный анализ приходит в сцену!

Корреляционный регрессионный анализ – это техника, через которую мы можем обнаружить и анализировать взаимосвязь между независимыми переменными, а также с целевым значением.

При этом мы пытаемся проанализировать, какая информация или стоимость делают независимые переменные, пытаются добавить от имени целевого значения.

Обычно корреляционный анализ работает для регрессионных значений I.E. Непрерывные (числовые) переменные, и он изображен через матрицу, известную как корреляционную матрицу.

В корреляционной матрице отношения между переменными являются значение между диапазоном -1 до +1 Отказ

Используя корреляционный анализ, мы можем обнаружить избыточные переменные I.e. Переменные, которые представляют ту же информацию для целевого значения.

Если две переменные очень коррелируют, он дает нам головы, чтобы устранить либо из переменных, поскольку они изображают ту же информацию.

Давайте теперь реализуем концепцию корреляционной регрессии!

Корреляционный регрессионный анализ с использованием модуля PandaS

В этом примере мы использовали Набор данных банковского кредита Чтобы определить корреляционную матрицу для значений числовых столбцов. Вы можете найти набор данных здесь !

  1. Изначально мы загрузим набор данных в среду, используя pandas.read_csv () функция.
  2. Кроме того, мы будем разделить числовые столбцы в другую Список Python (переменная), как показано на примере ниже.
  3. Теперь мы бы подать заявку Corr () Функция О каждой числовой переменной и создайте корреляционную матрицу для того же выхода этой функции.

Пример:

import os
import pandas as pd
import numpy as np

# Loading the dataset
data = pd.read_csv("loan.csv")
numeric_col = ['age', 'employ', 'address', 'income', 'debtinc', 'creddebt', 'othdebt']

#Using Correlation analysis to depict the relationship between the numeric/continuous data variables
corr = data.loc[:,numeric_col].corr()
print(corr)

Выход:

Корреляционный регрессионный анализ выходов

Использование Numpy Module для определения корреляции между переменными

Метод Corr () не единственный, на который вы можете использовать для корреляционного анализа регрессии. У нас есть еще одна функция для расчета корреляций.

Python Numpy дает нам numpy.corkorceef () Функция для расчета корреляции между числовыми переменными.

Синтаксис:

numpy.corrcoef(col1, col2)

В результате он вернет корреляционную матрицу для переменных входных регрессии.

Пример:

import numpy as np 

x = np.array([2,4,8,6]) 
y = np.array([3,4,1,6]) 
 
corr_result=np.corrcoef(x, y) 

print(corr_result) 

Выход:

[[ 1.         -0.24806947]
 [-0.24806947  1.        ]]

Заключение

По этому, мы подошли к концу этой темы. Для получения дополнительных таких постов, связанных с Python, оставайся настроенными! Попробуйте реализовать концепцию корреляционного анализа на различных наборах данных и давайте узнаем свой опыт в разделе комментариев 🙂

До этого, счастливого обучения !! 🙂.