多语言大海捞针：研究多语言大规模语言模型的长上下文行为

Aug, 2024

多语言大海捞针：研究多语言大规模语言模型的长上下文行为

Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models

Amey Hengle, Prasoon Bajpai, Soham Dan, Tanmoy Chakraborty

TL;DR本研究解决了当前大规模语言模型在长多语言上下文处理能力不足的问题，提出了MultiLingual Needle-in-a-Haystack（MLNeedle）测试，评估模型在多语言环境下的信息检索能力。我们的研究发现，模型性能受语言和信息位置影响显著，并揭示了多语言环境中模型长上下文行为的重要见解，为未来的评估方案提供了指导。

Abstract

While recent Large Language Models (LLMs) demonstrate remarkable abilities in responding to queries in diverse languages, their ability to handle long Multilingual contexts is unexplored. As such, a systematic ev

发现论文，激发创造

大型语言模型在信息检索中的应用：综述

信息检索系统和大型语言模型的融合，包括关键方面，如查询重写、检索、重新排序和阅读器，在这一快速发展的研究领域中提供全面的概述和深入的见解。

Aug, 2023

检索与长上下文大语言模型的融合

通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案，我们发现使用简单的检索增强在生成时可以实现与微调后的具有16K上下文窗口通过位置插值在长上下文任务上具有可比性能的4K上下文窗口的大型语言模型，而计算量较小。此外，我们证明检索可以显著提高大型语言模型的性能，而不受其扩展上下文窗口大小的限制。我们的最佳模型，检索增强的32K上下文窗口的LLaMA2-70B，在7个长上下文任务中，包括问答和基于查询的摘要，的平均得分方面优于GPT-3.5-turbo-16k和Davinci003。它还在生成速度上优于其非检索的LLaMA2-70B-32k基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。

Oct, 2023

LooGLE: 长文本语言模型是否理解长文本上下文?

基于LooGLE评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

RULER: 你的长上下文语言模型真实的上下文大小是多少？

评估长上下文语言模型的新综合性基准RULER，包括类别多跳追踪和聚合测试行为，显示出在上下文长度增加时所提供的任务和性能急剧下降

Apr, 2024

LLM亲境召回取决于提示

通过使用needle-in-a-haystack方法分析各种大型语言模型的上下文召回性能，我们的研究表明模型的成功检索能力不仅取决于提示内容，而且还可能受到训练数据中的偏见的影响。相反，通过对模型架构、训练策略或微调进行调整可以提高性能，我们的分析揭示了关于大型语言模型行为的见解，为开发更有效的应用提供了指导。

Apr, 2024

LongSkywork：用于大型语言模型中高效扩展上下文长度的训练方法

LongSkywork是一种具有长上下文处理能力的大型语言模型 (LLM)，通过在标准SFT阶段之后添加长上下文SFT阶段来增强长上下文处理能力，使用合成数据的方法显著提高了训练效率，并在各种长上下文基准测试中取得了出色的表现。

Jun, 2024

多模态编辑中的关键问题

这篇论文介绍了第一个专门设计来系统评估现有多模态大型语言模型对长文本多模态内容理解能力的基准测评 MM-NIAH，并指出现有模型在这些任务上仍有显著的改进空间，特别是在以视觉为中心的评估上。

Jun, 2024

多模态大语言模型的长上下文能力基准测试

对多模态大语言模型进行了全面评估，介绍了一种用于长上下文能力评估的基准测试方法，包括多图像输入和图像拼接，以加大输入上下文长度，并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述，对MLLMs在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示GPT-4o在长上下文情景中始终优于其他模型，但在负样本（即针未在抽屉中）中存在错误信息生成问题。此外，对API模型和开源模型进行了综合的长上下文评估，显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。

Jun, 2024

不留下任何文件: 扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理？

评估大型语言模型在长文本情境下的能力，提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench，并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明，当前的大型语言模型在实际长文本应用中仍有很大的改进空间。

Jul, 2024