EMNLPOct, 2023
多任务学习下多头注意力中的功能专业化解释与利用
Interpreting and Exploiting Functional Specialization in Multi-Head Attention under Multi-task Learning
Chong Li, Shaonan Wang, Yunhao Zhang, Jiajun Zhang, Chengqing Zong
TL;DR通过对 Transformer 模型的多头注意力机制进行解释和多任务训练,提出功能专门化的方法来改善模型性能。实验证明多头注意力在多任务训练后会发展功能专门化现象,并且这种训练策略能够提高多任务学习和迁移学习的性能,而不增加任何参数。