Nov, 2023

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

TL;DR提出两种通过温度缩放实现的注意力对齐策略,改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力,无需进行微调。