BriefGPT.xyz
Ask
alpha
关键词
teacher annealing
搜索结果 - 1
ACL
BAM! 自然语言理解的再生多任务网络
使用知识蒸馏和教师退火的方法,可帮助多任务神经网络训练并超越单任务神经网络,文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。
PDF
5 years ago
Prev
Next