Рубрики
Без рубрики

Введение в одноклассную классификацию

Как определить объекты определенного класса от учебных данных, содержащих только объекты этого класса. Помечено Python, машинное обучение, классификация.

Заявление о проблеме

В статистике ситуация может возникнуть, когда мы должны классифицировать объект, принадлежащий группе A или группу B. Когда мы пометили данные тренировок для каждого класса объекта, проблема довольно проста – мы можем использовать алгоритмы двоичных классификаций для прогнозирования класса, к которому принадлежит новый объект. Когда у нас есть незамечаемые данные тренировки, мы обратимся к кластеризации алгоритмов. До сих пор так хорошо, но как мы решаем проблемы, в которых наши учебные данные содержит только меченные объекты для одного класса, а остальные являются объектами неизвестного класса? Чтобы сделать все еще хуже, даже Trusty Sklearn Skistator Potsheteet предоставляет ответ.

Как насчет полумеченных данных?

Фон

Я задал себе этот вопрос при попытке построить модель, которая оценила вероятность того, что звезда за пределами нашей солнечной системы содержит экзопланет на своей орбите. Архив Exoplanet NASA содержит сокровищную Thove информации, детализирующую различные звезды и экзопланеты. В рамках кеплера Stellar DataSet астрономы определили, что многие звезды на самом деле имеют экзопланеты на своей орбите. Однако для других звезд, не принимают ли они какие-то планеты Orbing, неизвестны. В этом случае у нас есть образец данных, в котором один класс помечен (звезда содержит экзопланет), и все остальное не разблокировано (звезда может или не может содержать экзопланет). У нас нет ярлыков для случая, что звезда не имеет экзопланета, потому что крайне сложно, если не невозможно, сказать наверняка, что звезда не имеет планетов на своей орбите. Цель состоит в том, чтобы построить и тренировать модель, которая оценивает вероятность того, что новая наблюдаемая тестовая звезда содержит экзопланет на своей орбите, основанном на сходстве этой тестируемой звезды с звездами, которые, как известно, содержат экзопланеты. Какие варианты у нас есть?

Решение (пропустить здесь для TL; DR)

Сценарий, который я изложил, это то, что известно как Одноклассное классификация . Есть многочисленные интерпретации и приложения, изложенные на протяжении всей научной литературы, но я коснусь некоторых из более популярных концепций здесь.

  • ПУ изучает Двоичный классификатор учится в полукортированном виде от только положительных P и не подлежащих незамеченным данным U. Учить больше
  • Новинка и выброс выбросов Решите, принадлежит ли новое наблюдение к тому же распределению, что и существующие наблюдения (это inlier), или следует рассматривать как разные (это выброс). Учить больше
  • Один класс SVM Подход SVM к одноклассной классификации. Учить больше

Python Resources

Существуют различные способы реализации одноклассных классификаторов в Python. В этот момент я отложу людей к людям, которые намного лучше оборудованы для обсуждения деталей реализации таких моделей.

Заключение

Я надеюсь, что по крайней мере, которые я предоставил выше, оставьте вас лучше, чтобы решить ваши собственные проблемы с одним классом. Это третий в серии блога, написанных для Чиповая программа наставничества Отказ В рамках моего проекта я пытаюсь тренировать модели, которые оценивают вероятность того, что звезда обладает экзопланетами на своей орбите или обитаемых планетах на своей орбите. Выявление моей проблемы в качестве задачи классификации в одной классе стала важным скачком в ходе этого проекта. Мои следующие шаги – реализовать SVM One-Class, а затем анализируйте данные серии времени для различных звезд, чтобы попытаться определить Минутные мероприятия Dimming которые указывают на орбитальную планету.

Оригинал: “https://dev.to/stevenbruno/an-introduction-to-one-class-classification-2m5c”