使用 LoCo 和 M2-BERT 进行长上下文检索模型的基准测试和构建
通过引入 LongBench,对 8 个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
通过上下文压缩和领域内参数高效微调,我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法,使得 LLM 能够创建原始上下文的简洁表示,并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO,一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术,将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估,结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌,显著优于上下文学习,实现了高达 $7.62 imes$ 的加速,大大降低了长文档问答的成本,为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。
Apr, 2024
该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型(MLLMs)在长上下文和多图像任务中的适应能力,并发现开源 MLLMs 在长上下文情境中面临着挑战,尤其在涉及多图像的情景下。
Apr, 2024
基于长上下文语言模型(LCLMs)的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能,发现它们能与最先进的检索系统和 RAG 系统媲美,但在像 SQL 一样需要组合推理的领域仍存在挑战,提示着需要继续研究随着上下文长度增长时的提示策略的影响。LOFT 为 LCLMs 提供了严格的测试平台,展示了随着模型能力的扩展,它们取代现有范式并解决新任务的潜力。
Jun, 2024
在极限标签分类领域中,本研究介绍了一种专门的基准测试(LIConBench),重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上,发现在 20K 的令牌长度下,大部分大语言模型表现相对良好且受益于利用长上下文窗口,然而,在上下文窗口超过 20K 后,除了 GPT-4 之外,大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战,我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。
Apr, 2024
我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
为了降低长上下文 Transformer 模型的成本并解决效率挑战,本研究提出了一种并行编程框架,用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战,并识别出减少 1M 上下文推断成本的可能方向。
May, 2024
通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案,我们发现使用简单的检索增强在生成时可以实现与微调后的具有 16K 上下文窗口通过位置插值在长上下文任务上具有可比性能的 4K 上下文窗口的大型语言模型,而计算量较小。此外,我们证明检索可以显著提高大型语言模型的性能,而不受其扩展上下文窗口大小的限制。我们的最佳模型,检索增强的 32K 上下文窗口的 LLaMA2-70B,在 7 个长上下文任务中,包括问答和基于查询的摘要,的平均得分方面优于 GPT-3.5-turbo-16k 和 Davinci003。它还在生成速度上优于其非检索的 LLaMA2-70B-32k 基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。
Oct, 2023
基于 LooGLE 评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023