Jan, 2024

多头注意力在上下文线性回归中的优势

TL;DR我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能,理论分析表明具有较大嵌入维度的多头注意力优于单头注意力,当上下文示例的数量增加时,使用单头 / 多头注意力的预测损失为 O (1/D),而多头注意力的乘法常数较小。此外,在最简单的数据分布设置之外,我们还考虑了更多的场景,如噪声标签、本地示例、相关特征和先验知识,观察到一般情况下多头注意力优于单头注意力,我们的结果验证了 transformer 架构中多头注意力设计的有效性。