May, 2024

为长上下文理解的 Transformer 装备随机访问读取

TL;DR长文本建模提出了对基于 Transformer 的大型语言模型(LLMs)的重大挑战,我们提出了一种新的阅读策略,即随机访问,可以使 Transformer 模型在处理长文档时高效地跳过不相关的标记。通过预训练、微调和推理阶段的实验证明了我们方法的有效性。