Лучшие документы NLP/NLU с конференции ICLR 2020

Эта статья была первоначально размещена в Блог Нептуна

Международная конференция по обучению (ICLR) Проходил на прошлой неделе, и мне было приятно участвовать в этом. ICLR – это событие, посвященное Исследование всех аспектов обучения представительства, широко известных как глубокое обучение Анкет В этом году событие было немного другим, поскольку оно стало виртуальным из -за пандемии коронавируса. Тем не менее, онлайн -формат не изменил большую атмосферу мероприятия. Он был увлекательным и интерактивным и привлекла 5600 посетителей (вдвое больше, чем в прошлом году). Если вам интересно, что организаторы думают о необычной онлайн -договоренности конференции, вы можете прочитать об этом здесь.

Более 1300 докладчиков представили много интересных документов, поэтому я решил создать серию постов в блоге, обобщающих лучшие из них в четырех основных областях: глубокое обучение, обучение подкреплению, генеративное моделирование, NLP/NLU.

Это последний пост серии, в которой я хочу поделиться 10 Лучшая обработка естественного языка/Понимание вклада от ICLR Анкет

Альберт: Lite Bert для самоотверженного изучения языковых представлений
Перспектива максимизации взаимной информации обучения языковым представлениям
Mogrifier LSTM
Синтез речи с высокой точностью с состязательными сетями
Реформатор: эффективный трансформатор
Определите: глубоко факторированные входные токеновые встраивания для моделирования нейронных последовательностей
Глубина адаптивного трансформатора
Об идентификации в трансформаторах
Зеркальный перевод нейронной машины.
Freelb: Усовершенствованное состязательное обучение для понимания естественного языка

1. Альберт: Lite Bert для самоотверженного изучения языковых представлений

Новый метод предварительного подготовки, который устанавливает новые современные результаты на критериях клея, расы и отряда, имея меньше параметров по сравнению с Bert-Large. (Tl; dr, from openreview.net )

| Бумага | Код |

Расстояния L2 и сходство косинуса (с точки зрения степени) входного и выходного встраивания каждого слоя для Bert-Large и Albert-Large. (Источник: Рис. 1 из бумаги)

Первый автор: Zhenzhong Lan | LinkedIn |

2. Перспектива максимизации взаимной информации обучения языковым представлениям

Представление слова является общей задачей в NLP. Здесь авторы формулируют новые рамки, которые объединяют классические методы встраивания слов (например, Skip-Gram) с более современными подходами, основанными на контекстном встраивании (Bert, XLnet).

| Бумага |

Левый участок показывает оценки F1 Bert-NCE и InfoWord, поскольку мы увеличиваем процент примеров обучения в команде (DEV). Правильный график показывает оценки F1 InfoWord на команде (DEV) как функция λdim. (Источник: Рис. 1 из бумаги)

Первый автор: Lingpeng Kong | Twitter | GitHub | Веб -сайт |

3. Mogrifier LSTM

Расширение LSTM с современными результатами языкового моделирования. (Tl; dr, from openreview.net )

| Бумага |

Мограммиер с 5 раундами обновлений. Предыдущее состояние преобразуется линейно (пунктирные стрелки), питается через сигмоид и ворота X элементом, создавая x1. И наоборот, линейно преобразованные x1 -ворота H 0 и производит H2. После ряда повторений этого взаимного цикла стробирования последние значения последовательностей H ∗ и x ∗ подаются в ячейку LSTM. Предыдущий индекс H пропускается, чтобы уменьшить беспорядок. (Источник: Рис. 1 из бумаги)

Первый автор: Габор Мелис Twitter | LinkedIn | GitHub | Веб -сайт |

4. Синтез речи с высокой точностью с состязательными сетями

Мы вводим Gan-TTS, генеративную состязательную сеть для текста в речь, которая достигает среднего балла мнения (MOS) 4.2. (Tl; dr, from openreview.net )

| Бумага | Код |

Остаточные блоки, используемые в модели. Снусые слои имеют одинаковое количество входных и выходных каналов и отсутствие дилатации, если не указано иное. H-скрытое представление слоя, лингвистические особенности, z-Z-шумовой вектор, мультипликатор M-канал, для блоков по снижению дискретизации (то есть, если их коэффициент погрузочного образца больше 1) и в противном случае, входные каналы M-G, в блоках 3, 6, 7, и иначе; Размер относится к размеру ядра. (Источник: Рис. 1 из бумаги)

Первый автор: Mikołaj Bińkowski | LinkedIn | GitHub |

5. Реформатор: Эффективный трансформатор

Эффективный трансформатор с чувствительным к местным хешинге и обратимыми слоями. (Tl; dr, from openreview.net )

| Бумага | Код |

Угловая локальная, чувствительная к месту хэш использует случайные вращения сферически проецируемых точек для установления ведер с помощью Argmax над подписанными проекциями осей. В этом высокопрофессиональном 2D -изображении две точки x и y вряд ли будут иметь одни и те же хеш -ведра (выше) для трех разных угловых хэшей, если их сферические проекции не находятся близки друг к другу (ниже). (Источник: Рис. 1 из бумаги)

Основные авторы

Никита Китаев | LinkedIn | GitHub | Веб -сайт |

Lłukasz Kaiser | Twitter | LinkedIn | GitHub |

6. Определите: глубоко факторированные входные токеновые встраивания для моделирования нейронных последовательностей

DEFINE использует глубокую, иерархическую, разреженную сеть с новыми скип -соединениями, чтобы эффективно изучить встроенные слова. (Tl; dr, from openreview.net )

| Бумага |

При определении, Transformer-XL изучает представления ввода (встраиваемость) и выходных (классификация) в низком N-мерном пространстве, а не с высоким содержанием m-размерного пространства, что значительно снижает параметры, оказывая минимальное влияние на производительность. (Источник: Рис. 1 из бумаги)

7. Глубина адаптивного трансформатора

Модель последовательности, которая динамически настраивает объем вычислений для каждого входа. (Tl; dr, from openreview.net )

| Бумага |

Обучающие режимы для декодерных сетей, способных излучать выходы на любом уровне. Выровненное обучение оптимизирует все классификаторы вывода CN одновременно предполагает все предыдущие скрытые состояния для текущего уровня. Смешанные обучающие образцы M Путь случайных выходов, на которых предполагается, что модель вышла; Отсутствие предыдущих скрытых состояний копируется снизу. (Источник: Рис. 1 из бумаги)

8. Об идентификации в трансформаторах

Мы исследуем идентифицируемость и интерпретируемость распределения внимания и токенов в контекстных встроках в модели BERT на основе самосоглаживания. (Tl; dr, from openreview.net )

| Бумага |

а) Каждая точка представляет собой коэффициент корреляции Пирсона эффективного внимания и необработанного внимания как функции длины токена. (б) Сырое внимание против (в) эффективное внимание, где каждая точка представляет среднее (эффективное) внимание данной головы к типу токена. (Источник: Рис. 1 из бумаги)

Первый автор: Джино Бруннер | Twitter | LinkedIn | Веб -сайт |

9. Зеркальный перевод нейронной машины.

Подходы перевода, известные как модели перевода нейронных машин (NMT), зависят от доступности большого корпуса, построенного в виде языковой пары. Здесь предлагается новый метод для переводов в обоих направлениях с использованием перевода генеративной нейронной машины.

| Бумага |

Графическая модель MGNMT. (Источник: Рис. 1 из бумаги)

Первый автор: Zaixiang Zheng | Twitter | Веб -сайт |

10. Freelb: Улучшенная состязательная тренировка для понимания естественного языка

Здесь авторы предлагают новый алгоритм под названием Freelb, который формулирует новый подход к состязательной подготовке языковой модели.

| Бумага | Код |

Алгоритм псевдокод. (Источник: Рис. 1 из бумаги)

Первый автор: Чен Чжу | LinkedIn | GitHub | Веб -сайт |

Глубина и широта публикаций ICLR довольно вдохновляют. Этот пост посвящен теме «обработки естественного языка», которая является одной из основных областей, обсуждаемых во время конференции. Согласно Этот анализ , эти области включают в себя:

Глубокое обучение
Подкрепление обучения
Генеративные модели
Обработка/понимание естественного языка

Чтобы создать более полный обзор лучших бумаг в ICLR, мы создали серию постов, каждый из которых был сосредоточен на одной теме, упомянутой выше. Это последний, так что вы можете проверить других на предмет более полный обзор.

Мы будем рады продлить наш список, поэтому не стесняйтесь поделиться с нами другими интересными документами NLP/NLU.

А пока – счастливого чтения!

Эта статья была первоначально размещена в Блог Нептуна где вы можете найти более подробные статьи для практиков машинного обучения.

Оригинал: “https://dev.to/kamil_k7k/the-best-nlp-nlu-papers-from-the-iclr-2020-conference-3ipg”

1. Альберт: Lite Bert для самоотверженного изучения языковых представлений

2. Перспектива максимизации взаимной информации обучения языковым представлениям

3. Mogrifier LSTM

4. Синтез речи с высокой точностью с состязательными сетями

5. Реформатор: Эффективный трансформатор

6. Определите: глубоко факторированные входные токеновые встраивания для моделирования нейронных последовательностей

7. Глубина адаптивного трансформатора

8. Об идентификации в трансформаторах

9. Зеркальный перевод нейронной машины.

10. Freelb: Улучшенная состязательная тренировка для понимания естественного языка

Читайте ещё по теме: