ICMLFeb, 2019

BERT 和 PALs:多任务学习中的有效自适应投影关注层

TL;DR使用预训练的 BERT 模型和适应模块(projected attention layers)实现多任务学习,通过共享单一模型降低参数数量,取得了 GLUE 基准测试最佳结果,并在文本蕴含理解数据集上达到了最新的最好结果。