Jul, 2022

Transformer 的广义注意机制和相对位置

TL;DR本文提出了广义注意力机制 (GAM),揭示了 Vaswani 等人的自注意力机制的新解释,提供了不同变体注意力机制和 GAM 框架中的新相对位置表示,并可简单应用于不同数据集中元素的不同位置的情况。