Nov, 2023
注意力对齐和灵活位置嵌入改进了 Transformer 长度外推
Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation
Ta-Chung Chi, Ting-Han Fan, Alexander I. Rudnicky
TL;DR提出两种通过温度缩放实现的注意力对齐策略,改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力,无需进行微调。