Mar, 2020

Talking-Heads Attention

TL;DR本研究介绍了 “talking-heads attention”—— 多头注意力机制的一种变体,通过在 softmax 操作之前和之后在注意力头维度上进行线性投影,只需添加少量参数和计算即可在掩码语言建模任务中提高 困惑度,在迁移学习到语言理解和问题回答任务时,可以带来更好的质量。