ACLJul, 2019

BAM! 自然语言理解的再生多任务网络

TL;DR使用知识蒸馏和教师退火的方法,可帮助多任务神经网络训练并超越单任务神经网络,文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。