May, 2024
为长上下文理解的 Transformer 装备随机访问读取
Equipping Transformer with Random-Access Reading for Long-Context Understanding
Chenghao Yang, Zi Yang, Nan Hua
TL;DR长文本建模提出了对基于 Transformer 的大型语言模型(LLMs)的重大挑战,我们提出了一种新的阅读策略,即随机访问,可以使 Transformer 模型在处理长文档时高效地跳过不相关的标记。通过预训练、微调和推理阶段的实验证明了我们方法的有效性。