Многозадачное обучение для предложений.

Универсальный предложенный кодер

” Гора Фудзи” по Эдвард Ма на Неспособный

Cera et al. продемонстрировал, что результат переноса обучения встроенных предложений превосходит Слово встраивание . Традиционный способ построения предложений – это либо средняя, сумма, либо связаться с набором векторов Word в предложение продукта. Этот метод потерял много информации, но просто проще расчета. Cera et al. оценили две известные сетевые архитектуры, которые являются модели на основе трансформатора и модели на основе глубокого усреднения (DAN).

Оценка сходства предложений (Cera et al., 2018)

Эта история будет обсуждаться о Универсальный предложенный кодер (Cera et al., 2018), и следующие будут покрыты:

Данные
Архитектура
Реализация

Данные

Поскольку он предназначен для поддержки нескольких нижестоящих задач, принято много задач. Следовательно, Cera et al. Используйте несколько источников данных для обучения модели, включая обзор фильмов, обзор клиентов, классификацию настроений, классификацию вопросов, семантическое текстовое сходство и тест Ассоциации встроения слов (WEAT).

Архитектура

Текст будет направлен методом Penn Treebank (PTB) и передачи либо в архитектуру трансформатора, либо сеть глубокого усреднения. Поскольку обе модели предназначены для того, чтобы быть общей целью, принят многозадачный подход к обучению. Цель обучения включает в себя:

То же, что Пропустить, хотя , прогнозируя предыдущее предложение и следующее предложение путем вынесения текущего предложения.
Предложение разговорного ответа для включения проанализированных разговорных данных.
Задача классификации на контролируемых данных

Прогнозирование предыдущего предложения и следующего предложения (Kiros et al., 2015)

Трансформатор Архитектура разработана Google в 2017 году. Это использует собственное внимание с помощью нескольких блоков, чтобы узнать контекстное представление слов.

Архитектура трансформатора (Vaswani et al ,, 2017)

Сеть глубокого усреднения (DAN) использует среднее значение внедрения (Word и Bi-Gram) и кормления в нейронную сеть.

Дан Архитектура (Ivver et al., 2015)

Причины введения двух моделей, потому что разные заботы. Архитектура трансформатора достигает лучшей производительности, но ей нужно больше ресурсов для обучения. Хотя Дэн не работает так же хорошо, как архитектура трансформатора. Преимущество Дэна – простая модель и требующая меньше учебных ресурсов.

Реализация

Чтобы исследовать энкодер универсального предложения, если вы просто следуете инструкции из Tensorflow Hub Анкет

Забрать

Многозадачное обучение важно для изучения текстовых представлений. Можно обнаружить, что много современной архитектуры модели NLP использует многозадачное обучение, а не автономный набор данных
Вместо того, чтобы собирать многочисленные векторы для представления встроенных предложений, изучение его из многословных векторов достигает лучшего результата.

Обо мне

Я ученый для данных в районе Бэй. Сосредоточив внимание на современном в науке о данных, искусственном интеллекте, особенно в NLP и платформе, связанных. Не стесняйтесь общаться со мной на LinkedIn или следующий за мной на Середина или GitHub . Я предлагаю короткие совет по проблеме машинного обучения или на платформу по науке о данных за небольшую плату.

Чтение расширения

Справка

D. Cera, Y. Yang, S. Y. Kong, N, Hua, N. Limtiaco, R. S. Johna, N. Constanta, M. Guajardo-Cespedes, S. Yuan, C. Tar, Y. H. Sung, B. Strope и Ray Kurzweil. Универсальный предложенный кодер Анкет 2018

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez,. Кайзер и И. Полосухин. Внимание – это все, что вам нужно Анкет 2017

M. Iyyer, V. Manjunatha, J. Boyd-Graber и H. Daume Iii. Глубокие неупорядоченные композиции конкурентов Синтаксические методы для классификации текста Анкет 2015

Оригинал: “https://dev.to/makcedward/multi-task-learning-for-sentence-embeddings-3f4p”