Рубрики
Без рубрики

Когда точности недостаточно …

Задача классификации существовала задолго до изобретения машинного обучения. Проблема, которая … Tagged MachineLearning, Python, Metrics.

Задача классификации существовала задолго до изобретения машинного обучения. Проблема, которая может возникнуть при работе с различными алгоритмами, – это использование Функция ошибки Это определяет, достаточно ли алгоритм, с алгоритмами классификации, он ничем не отличается.

Одним из наиболее используемых показателей, применяемых в этих алгоритмах, является Точность метрика ; На основании общего количества выборок и сделанных прогнозов мы возвращаем Процент образцов которые были правильно классифицированы. Но этот метод не всегда работает так хорошо; Представьте, что у нас есть в общей сложности 1000 образцов и алгоритм под названием Dumyalgorithm Это пытается классифицировать их в двух разных классах (A и B). К сожалению, Dummyalgorithm ничего не знает о распределении данных, в результате он всегда говорит нам, что данная образец имеет тип A. А теперь представьте, что все образцы из класса A (вы можете увидеть, куда я иду). В этом случае легко увидеть, что, хотя Dumyalgorithm имеет 100% точность, это не очень хороший алгоритм.

В этом посте мы узнаем, как мы можем дополнить метрику точности с другими стратегиями машинного обучения, которые учитывают проблему, описанную ранее. Следовательно, мы увидим метод, чтобы избежать такой проблемы.

Прежде чем идти дальше, давайте определим некоторые основные концепции.

Точность: Метрика, которая возвращает процент правильно классифицированных образцов в наборе данных

Истинные позитивы: Образцы, которые были правильно классифицированы по соответствующему положительному классу

Настоящие негативы: Образцы, которые были правильно классифицированы по соответствующему отрицательному классу

Ложные позитивы: образцы, которые были классифицированы как положительные, но были отрицательными

Ложные негативы: образцы, которые были классифицированы как негативы, но были положительными

Точность: Точность истинных положительных результатов (TP/TP + FP)

Напомним: Соотношение положительных экземпляров, которые правильно классифицируются (TP/TP + FN)

Примечание: когда мы говорим о положительных/отрицательных, мы говорим о конкретном классе

Матрица путаницы создает разделение для каждой из четырех возможных категоризаций. Это может быть использовано в многоклассной классификации. В следующем примере мы делаем бинарную классификацию, которая классифицирует красные точки среди других цветов.

Как и в случае с другими показателями, классификатор должен принять решение, в котором, если он хочет научиться иметь лучшую точность или лучшее отзыв. Иногда вы больше заботитесь о точности, чем вы заботитесь о отзыве Анкет Например, если вы хотите обнаружить безопасные для рабочих постов в социальной сети, вы, вероятно, предпочтете классификатор, который отвергает много хороших видео (низкий отзыв), но сохраняет только безопасные (высокая точность). С другой стороны, предположим, что вы тренируете классификатор для обнаружения магазинов, вероятно, лучше, чтобы классификатор получил наибольшее отзыв (система безопасности получит некоторые ложные оповещения, но почти все магазины будут пойманы.

На основании этого компромисса мы можем определить кривую, называемую Кривая точности/отзыва

Кривая ROC (кривая рабочей характеристики приемника) является очень распространенным инструментом, используемым с бинарными классификаторами. Это очень похоже на кривую точность/отзыв, но он представляет собой Истинная положительная скорость против Ложная положительная скорость Анкет Один из способов сравнения классификаторов – это измерить область под кривой (AUC). Идеальный классификатор будет иметь AUC, равный 1. Чисто случайный классификатор будет иметь ROC AUC, равный 0,5.

Поскольку кривая ROC и кривая точности/отзыва очень похожи, между ними может быть трудно выбрать. Общий подход заключается в использовании кривой точности/отзыва всякий раз, когда положительный класс встречается редко, и когда вы больше заботитесь о ложных положительных результатах, чем ложные негативы, и иначе кривая ROC.

Проблема точности по существу происходит, когда данные, с которыми тестируется модель, не сбалансирована. Чтобы решить эту проблему, есть несколько подходов.

  • Если у вас есть много учебных данных, вы можете отказаться от некоторых из них, чтобы создать более сбалансированные данные, хотя ваша модель может обобщить с меньшими данными, этот подход должен использоваться в особых случаях.
  • Используйте метод увеличения данных, чтобы увеличить доступные данные.
  • Используйте метод повторной выборки, в которой вы увеличиваете обучающие данные, используя те же данные, полезные, если подход к увеличению данных слишком сложный.

Оригинал: “https://dev.to/polmonroig/when-accuracy-is-not-enough-2hej”