Логистическая регрессия с Scikit-learn

Сейчас мы начнем с вопросов.

Что такое логистическая регрессия?

Логистическая регрессия это Алгоритм классификации машинного обучения который используется для прогнозировать вероятность категорической зависимой переменной.
В Логистическая регрессия , Зависимая переменная – двоичная переменная который содержит данные, кодированные как 1 (Да, успех и т. Д.) Или 0 (Нет, неудача и т. Д.).

Похоже:

Изображение

Что ты должен изобразить Из этого изображения в том, что в Логистическая регрессия , ваш данные это классифицирован в 0 или 1 Анкет

Если вы были Следуя серии Анкет Просто знаю, что это Special Один, потому что сегодня ты собираешься сделать Извлечение функции самостоятельно.

Вопрос, который, вероятно, у вас на уме, если вы не следили за Серия :

Что такое извлечение функций?

Извлечение признаков – это процесс снижения размерности, с помощью которого начальный набор необработанных данных уменьшается до более управляемых групп для обработки.
С другой стороны, это акт выбора полезных функций из набора данных и остального.

Нажмите Здесь Чтобы загрузить набор данных, который мы будем использовать сегодня. Обычно, как только вы нажимаете на ссылку, она начинает загружать, но, как я уже сказал, эта статья отличается. Поскольку вы делаете Извлечение функции самим собой , вам придется знать, какой Особенности ты собираешься выбрать. Это означает, что вам придется изучать Атрибут информации самим собой .

Цель дня:

Мы собираемся сделать модель, которая сможет предсказывать Если у кого -то есть Болезнь сердца или не Анкет

Мы начнем кодирование Теперь

Импорт необходимых библиотек

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

Загрузите и просмотрите набор данных

df = pd.read_csv('heart.csv')
df.head()

Вывод :

Изображение

Извлечение функций

Здесь вы проводите исследование, какие функции важны.

Создание набора обучения и проверки

Когда большая сумма из данные под рукой, набор образцов может быть отменен на оценивать Окончательная модель Анкет “Обучение” Набор данных является общим термином для образцов, используемых для Создайте модель , в то время как “Тест” или “Валидация” Набор данных используется для квалифицировать производительность .

train_data, validation_data, train_labels, validation_labels = train_test_split(
data,
labels,
train_size=0.8,
test_size=0.2,
random_state=1)

train_size Насколько велик или маленький, ты хочешь свой Учебный набор быть. Это то же самое для test_size Анкет
random_state в основном используется для воспроизведения вашей проблемы одинаково каждый раз, когда она запускается.

Создание модели

model = LogisticRegression()
model.fit(train_data,train_labels)
print(model.score(validation_data,validation_labels))

Вывод :

0.7704918032786885

Оценка не так уж и плох Но это не хорошо.

Сделать прогнозы с вашей моделью

Теперь пришло время сделать прогноз, используя выбранные вами функции.

print(model.predict([[63,1,4,141,233,1,1,150,0,2.3,0,0,1]]))

Вывод :

[1]

Вы можете посетить Kaggle Чтобы найти больше наборов данных, которые вы можете выполнить Логистическая регрессия на.

Проверьте мой Twitter или Instagram Анкет

Не стесняйтесь задавать вопросы в комментариях Анкет

Удачи 👍

Оригинал: “https://dev.to/mrcodeslinger/logistic-regression-with-scikit-learn-37hc”

Цель дня:

Импорт необходимых библиотек

Загрузите и просмотрите набор данных

Извлечение функций

Создание набора обучения и проверки

Создание модели

Сделать прогнозы с вашей моделью

Читайте ещё по теме: