Oct, 2023
检索与长上下文大语言模型的融合
Retrieval meets Long Context Large Language Models
TL;DR通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案,我们发现使用简单的检索增强在生成时可以实现与微调后的具有16K上下文窗口通过位置插值在长上下文任务上具有可比性能的4K上下文窗口的大型语言模型,而计算量较小。此外,我们证明检索可以显著提高大型语言模型的性能,而不受其扩展上下文窗口大小的限制。我们的最佳模型,检索增强的32K上下文窗口的LLaMA2-70B,在7个长上下文任务中,包括问答和基于查询的摘要,的平均得分方面优于GPT-3.5-turbo-16k和Davinci003。它还在生成速度上优于其非检索的LLaMA2-70B-32k基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。