EMNLPOct, 2023

多任务学习下多头注意力中的功能专业化解释与利用

TL;DR通过对 Transformer 模型的多头注意力机制进行解释和多任务训练,提出功能专门化的方法来改善模型性能。实验证明多头注意力在多任务训练后会发展功能专门化现象,并且这种训练策略能够提高多任务学习和迁移学习的性能,而不增加任何参数。