Рубрики
Без рубрики

Неснесенные данные Увеличение

Фото Эдварда МА на Unsplash Посмотрите на расширение данных | К ай … Теги с машинным обучением, Python, AI, NLP.

фото Эдвард Ма на Бессмысленно

Посмотрите на расширение данных | К АИ

Чем больше данных у нас есть, тем лучше производительность мы можем достичь. Однако это очень слишком роскошь, чтобы аннотировать большое количество учебных данных. Следовательно, правильное увеличение данных полезно для повышения производительности вашей модели. Авторы Usupervied Data Augmentation (Xie et al., 2019) Предложил несоответствующие данные о расширении данных (UDA), которые нам создают лучшую модель, используя несколько методов увеличения данных.

В поле для обработки естественного языка (NLP) трудно дополнить текст из-за высокой сложности языка. Не каждое слово, которое мы можем заменить его другими, такими как A, AN, то. Также не каждое слово имеет синоним. Даже изменение слова, контекст будет полностью различия. С другой стороны, генерирование дополненного изображения в области компьютерного зрелища относительно легче. Даже вводящий шум или обрезку части изображения, модель все еще может классифицировать изображение.

Xie et al. Проведен несколько экспериментов по увеличению данных о классификации изображений (AutoAUbment) и текстовой классификации (задний перевод и замена слова на основе TF-IDF). После создания достаточно большого набора данных модельной подготовки, авторы заметили, что модель может легко подходить. Поэтому они вводят отжиг тренировочного сигнала (TSA), чтобы преодолеть его.

Стратегии увеличения

Этот раздел вносит три расширении данных в компьютерном видении (CV) и поле для обработки естественного языка (NLP).

Автооперация для классификации изображений

AutoAubment найден Google в 2018 году. Это способ автоматически увеличить изображения. В отличие от традиционной библиотеки увеличения изображения, AutoAubment предназначен для автоматического управления данными, чтобы найти лучшую политику.

Вы можете посетить здесь для модели и реализации.

Сгенерированный результат на аутоааэнгементе (Cubuk et al., 2018)

Перевод на текст классификации

Перевод на задний план – это способ использовать систему перевода для генерации данных. Учитывая, что у нас есть модель для перевода английского языка на кантонскую и наоборот. Дополненные данные могут быть получены путем перевода исходных данных с английского на Cantonese, а затем переводят обратно на английский.

Sennrich et al. (2015) Используемый способ обратно-перевода для создания большего количества учебных данных для повышения производительности модели перевода.

Примеры перевода назад (Xie et al., 2019)

TF-IDF Слово, заменяющее для текстовой классификации

Хотя перевод назад помогает генерировать много данных, нет гарантии, что ключевые слова будут храниться после перевода. Некоторые ключевые слова имеют больше информации, чем другие, и она может быть пропущена после перевода.

Поэтому Xie et al. использовать TF-IDF решать это ограничение. Концепция TF-IDF заключается в том, что высокая частота может не в состоянии обеспечить много информации. Другими словами, редкие слова вносят больше весов к модели. Важность слова будет увеличено, если количество возникновения в том же документе (то есть учебная запись). С другой стороны, он будет уменьшен, если это произойдет в корпусе (т.е. другие учебные записи).

Оценка IDF рассчитывается по корпусу DBPEDIA. Оценка TF-IDF будет вычислена для каждого токена и заменить его в соответствии с оценкой TF-IDF. Низкий балл TF-IDF будет иметь высокую вероятность для замены.

Если вам интересно использовать слово TF-IDF, заменяющее для увеличения данных, вы можете посетить nlpaug Для внедрения Python.

Отжиг тренинга сигнала (TSA)

После создания большого количества данных, используя вышеупомянутые навыки, Xie et al. заметил, что модель будет легко подходящей. Поэтому они вводят TSA. Во время моделей обучения примеры с высокой доверием будут удалены из функции потерь для предотвращения чрезмерной подготовки.

На следующем рисунке показан диапазон значений ηt, пока k – количество категорий. Если вероятность выше, то ηt, она будет удалена из функции потерь.

Порог удаления высоких примеров вероятностей (Xie et al., 2019)

Целевая функция TSA (Xie et al., 2019)

3 Расчеты ηT рассматриваются для разных сценариев.

  • Линейный график: постоянно растет
  • График журнала: растущий быстрее на ранней стадии обучения.
  • Exp-график: растущий быстрее в конце обучения.

Процесс обучения среди трех графиков (Xie et al., 2019)

Рекомендация

  • Приведенный выше подход предназначен для решения проблем, которые авторы сталкиваются с их проблемой. Если вы понимаете ваши данные, вы должны адаптировать подходить к нему. Помните, что золотое правило в науке о данных – мусор в мусоре.

Нравится учиться?

Я ученый данных в районе залива. Сосредоточиться на современном в области науки о данных, искусственном интеллекте, особенно в NLP и на платформе. Не стесняйтесь связаться с я на Linkedin. или Github Отказ

Расширение чтения

Ссылка

Оригинал: “https://dev.to/makcedward/unsupervised-data-augmentation-3ico”