Сейчас мы начнем с вопросов.
Что такое логистическая регрессия?
- Логистическая регрессия это Алгоритм классификации машинного обучения который используется для прогнозировать вероятность категорической зависимой переменной.
- В Логистическая регрессия , Зависимая переменная – двоичная переменная который содержит данные, кодированные как
1
(Да, успех и т. Д.) Или0
(Нет, неудача и т. Д.).
Похоже:
Изображение
Что ты должен изобразить Из этого изображения в том, что в Логистическая регрессия , ваш данные это классифицирован в 0
или 1
Анкет
Если вы были Следуя серии Анкет Просто знаю, что это Special Один, потому что сегодня ты собираешься сделать Извлечение функции самостоятельно.
Вопрос, который, вероятно, у вас на уме, если вы не следили за Серия :
Что такое извлечение функций?
Извлечение признаков – это процесс снижения размерности, с помощью которого начальный набор необработанных данных уменьшается до более управляемых групп для обработки.
С другой стороны, это акт выбора полезных функций из набора данных и остального.
Нажмите Здесь Чтобы загрузить набор данных, который мы будем использовать сегодня. Обычно, как только вы нажимаете на ссылку, она начинает загружать, но, как я уже сказал, эта статья отличается. Поскольку вы делаете Извлечение функции самим собой , вам придется знать, какой Особенности ты собираешься выбрать. Это означает, что вам придется изучать Атрибут информации самим собой .
Цель дня:
Мы собираемся сделать модель, которая сможет предсказывать Если у кого -то есть Болезнь сердца или не Анкет
Мы начнем кодирование Теперь
Импорт необходимых библиотек
import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split
Загрузите и просмотрите набор данных
df = pd.read_csv('heart.csv') df.head()
Вывод :
Изображение
Извлечение функций
Здесь вы проводите исследование, какие функции важны.
Создание набора обучения и проверки
Когда большая сумма из данные под рукой, набор образцов может быть отменен на оценивать Окончательная модель Анкет “Обучение” Набор данных является общим термином для образцов, используемых для Создайте модель , в то время как “Тест” или “Валидация” Набор данных используется для квалифицировать производительность .
train_data, validation_data, train_labels, validation_labels = train_test_split( data, labels, train_size=0.8, test_size=0.2, random_state=1)
train_size
Насколько велик или маленький, ты хочешь свой Учебный набор быть. Это то же самое дляtest_size
Анкетrandom_state
в основном используется для воспроизведения вашей проблемы одинаково каждый раз, когда она запускается.
Создание модели
model = LogisticRegression() model.fit(train_data,train_labels) print(model.score(validation_data,validation_labels))
Вывод :
0.7704918032786885
Оценка не так уж и плох Но это не хорошо.
Сделать прогнозы с вашей моделью
Теперь пришло время сделать прогноз, используя выбранные вами функции.
print(model.predict([[63,1,4,141,233,1,1,150,0,2.3,0,0,1]]))
Вывод :
[1]
Вы можете посетить Kaggle Чтобы найти больше наборов данных, которые вы можете выполнить Логистическая регрессия на.
Проверьте мой Twitter или Instagram Анкет
Не стесняйтесь задавать вопросы в комментариях Анкет
Удачи 👍
Оригинал: “https://dev.to/mrcodeslinger/logistic-regression-with-scikit-learn-37hc”