ICLRJun, 2024

Transformer 和神经网络的原始 - 对偶框架

TL;DR自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键,本研究提出了一种基于支持向量回归问题的自注意力构建方法,推导出常用的注意力层,并提出了两种新型注意力机制:1) 批正则注意力,2) 缩放头注意力,通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。