Dec, 2022

并行上下文窗口提高大型语言模型的上下文学习能力

TL;DR本文提出了一种名为 Parallel Context Windows (PCW) 的方法,可缓解任何现成的 LLM 的上下文窗口限制,该方法通过将长上下文分成适合于模型的块(“窗口”)来限制注意机制的应用范围,并在窗口之间重用位置嵌入。我们在模型的大小范围内测试了 PCW 方法,并为具有不同输入和输出空间的任务展示了实质性的改进。该结果为研究将 Parallel Context Windows 应用于其他需要长文本序列的设置提供了动机。