Sep, 2022

Transformer 模型的轻松注意力

TL;DR本文通过实验表明,构建基于 relaxed attention 的 transformer 架构,可以通过抑制自动回归 transformer 解码器的内部语言模型,实现有效地整合外部语言模型,并且提高了通用 transformer 架构的正则化能力。