ACLMay, 2021

级联碰撞关注

TL;DR通过将多头注意力机制重新制定为潜在变量模型,提出了层次变分分布结构的串级头碰撞注意力(CODA)模型,该模型能够显式地建模不同注意头之间的交互,从而提高模型参数的使用效率,实验结果表明,CODA 模型在语言模型和机器翻译等任务上相比 transformer 模型表现更优。