充分利用上下文的 LLM
我们分析了语言模型在多文档问答和键值检索两个任务中的性能,发现当相关信息出现在输入上下文的开头或结尾时,性能通常最高,而在长上下文中访问相关信息时性能显著下降。此外,随着输入上下文的增长,性能显著降低,即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解,并为未来的长上下文模型提供了新的评估协议。
Jul, 2023
长文本中,大语言模型存在失效过中间信息的问题,我们通过研究发现这一现象与其内在的注意力偏差有关,而通过中间定位机制可以解决这一问题,并在检索增强生成任务中表现出更好的性能。
Jun, 2024
利用 LongIns benchmark dataset 在长背景下评估大型语言模型的推理性能及上下文窗口长度对其表现的影响。
Jun, 2024
在极限标签分类领域中,本研究介绍了一种专门的基准测试(LIConBench),重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上,发现在 20K 的令牌长度下,大部分大语言模型表现相对良好且受益于利用长上下文窗口,然而,在上下文窗口超过 20K 后,除了 GPT-4 之外,大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战,我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。
Apr, 2024
通过引入一种无需训练的基于内存的方法 InfLLM,使得大型语言模型 (LLM) 能够高效处理长序列并捕获远距离依赖关系。
Feb, 2024
大型语言模型(LLM)存在位置偏差,难以利用长篇上下文中间或结尾的信息。我们的研究通过探测其隐藏表示来探究 LLMs 的长篇上下文推理能力。我们发现,虽然 LLMs 编码目标信息的位置,但在生成准确回答时往往未能充分利用这一特性。这揭示了信息检索和利用之间的不一致,形成了一种 “知道但不说” 的现象。我们进一步分析了提取时间与最终准确性之间的关系,从而揭示了 Transformer 模型的基本机制。
Jun, 2024
在这项研究中,我们介绍了 BABILong 基准测试,用于评估大型语言模型在处理长上下文时的效率。评估结果表明,目前流行的语言模型仅有效地利用上下文的 10-20%,并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中,使用检索增强生成方法能够以最高 60%的准确率回答单个事实问题,而与上下文长度无关。对于上下文扩展方法,采用循环记忆变压器可以处理长度达 1100 万个标记。BABILong 基准测试可以扩展到任意长度,以支持评估具有更强能力的新模型,并为 1 百万个标记长度提供了分割。
Jun, 2024
通过 Attention Strengthening Multi-doc QA 任务,本文提出了一种增强长文本上大语言模型(LLMs)信息搜索以及反思能力的方法,实验证明在 Multi-doc QA 和其他基准测试中相比最先进模型,我们的模型在乱序设置下取得了 13.7%绝对增益,以及在段落检索任务中取得了 21.5%的改进。我们将我们的模型 Ziya-Reader 发布出来,以促进相关研究在社区中的开展。
Nov, 2023
最近,随着大量的大型语言模型(LLMs)的出现,人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构,但对于 LLMs 来说,能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上,提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下,实现更长、更好的上下文理解。我们的实验在 XSum 上进行,与原始生成结果相比取得了显著改进。
Jul, 2023