Рубрики
Без рубрики

Заменят ли самоподрызенные визуальные трансформаторы предварительно обученные CNN?

Предварительно обученные CNN по-прежнему являются королем, когда обучают модели для компьютерного зрения. Тем не менее, Emer … с меткой глубокого обучения, науки о данных, Python, машинного обучения.

Предварительно обученные CNN по-прежнему являются королем, когда обучают модели для компьютерного зрения. Тем не менее, появляющаяся популярность визуальных трансформаторов (VIT) и последующий консенсус по поводу их неконтролируемых возможностей обучения дает неожиданное пространство для VIT для узурпирования престола.

Свожденные нейронные сети работают путем скольжения шаблона (формально известного как ядра, но также называемой «картой функций») по изображению (слайд 1). Эта стратегия скольжения эффективна, потому что она действует как естественная форма инвариантности перевода: как только CNN может распознать что -то в одной части изображения, она распознает его в любой части изображения [1]. Тем не менее, этот подход приводит к какой -то хрупкости: карты функций часто переполняют определенную текстуру или размер объекта.

Создание карт функций требует тонны данных, а CNN обычно предварительно обучаются на большом общем наборе данных, таком как Coco или ImageNet-последний может похвастаться более миллионами изображений и около 1000 категорий. Кроме того, предварительно обученный CNN может быть точно настроен на новые задачи, вырезая головку модели и переподготовка новым, часто намного меньшим набором данных (слайд 2).

Трансформеры были популярны в обработке естественного языка (NLP) в течение довольно долгого времени. Они работают через концепцию, известную как «самоуверенность», которая уделяет определенные входные части больше внимания, чем другие [3]. В NLP это позволяет определить конкретные слова в предложении как более важное. Существуют разные типы внимания и много нюансов для экспертов, чтобы спорить, но слова «внимание» и «фокус» – это хорошие ментальные модели того, как эти сети учатся.

Самоподобный обучение немного отличается тем, что ей не требуются этикетки, которые вам не нужно сообщать модели, что объект в изображении принадлежит к категории «Cat», например. Вместо этого методика самоотверженной тренировки может включать обрезку изображения, подачу его через несколько сетей, а затем заставить их всех договориться о том, какие функции на изображении необходимы (слайд 3). Этот тип техники обучения под названием Dino [3], успешно обученным визуальным трансформаторам (трансформаторы для визуальных задач, например, изображения). VIT, обученные DINO, оказались на удивление эффективными для классификационных задач, достигнув 80% точности TOP-1 на ImageNet. Проверка карт самостоятельного прихода этих VIT также показывает, что они могут очень точно выделить объекты на изображении (слайд 4).

Теперь смелый прогноз: самоотверженные VIT в конечном итоге заменит предварительно обученные CNN в качестве энкодеров функций для задач компьютерного зрения. Есть все еще вопросы без ответа, например, будут ли VIT -обобщенные обобщения за пределами обучающего распределения лучше, чем CNN. Но одна вещь уверена: не требует ярлыков во время обучения позволить использовать гораздо большие наборы данных. Рассмотрим разницу в способности между ImageNet и самоотверженным VIT, обученным всему Интернету изображений…

Спасибо за чтение нашего последнего исследования бумаги. Если вы любите Computer Vision, ознакомьтесь с ZPY [4], наш инструментарий для разработки синтетических данных с открытым исходным кодом. Это все, что вам нужно для создания и итерации на синтетических данных обучения для компьютерного зрения. Ваши отзывы, коммиты и запросы функций неоценимы, поскольку мы продолжаем создавать более надежный набор инструментов для генерации синтетических данных. Между тем, если бы вы могли использовать поддержку с особенно сложной проблемой, пожалуйста, обратитесь.

[1] CS231N Свожденные нейронные сети для визуального распознавания-сверточные нейронные сети ( https://cs231n.github.io/convolution-networks/ ) [2] Трансформатор: Новая архитектура нейронной сети для понимания языка ( https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html ) [3] Новые свойства в самоотверженных трансформаторах зрения ( https://arxiv.org/pdf/2104.14294.pdf ). [4] zpy (github.com/zumolabs/zpy)

Оригинал: “https://dev.to/zumolabs/will-self-supervised-visual-transformers-replace-pre-trained-cnns-4j7o”