相同任务,更多令牌:输入长度对大型语言模型推理性能的影响
提出两种新方法,降低输入长度并在语言建模中实现困惑度和效率的提升。首先,我们研究了短输入的优点并发现通过训练模型的短子序列可以减少训练时间和提高困惑度。其次,我们提高了 transformers 的递归方法的效率,这是一种让模型在生成超过 transformer 一次可以处理的最大长度的序列时依赖于先前处理的令牌的方法。我们引入了一个简单的替代方法,通过将绝对位置嵌入到查询和键中而不是嵌入到单词中,可以在保持结果优越的情况下提高计算效率。将这些技术结合起来可以加速训练 1.65 倍,减少内存使用,并显著提高 WikiText-103 上的困惑度,而不会添加任何参数。
Dec, 2020
本文调查了扩展序列长度的技术和方法,包括架构修改和注意机制的改变等多种方法,并讨论了当前方法的局限性和未来研究方向建议,强调了序列长度对大型语言模型进一步发展的重要性。
Feb, 2024
在这项研究中,我们介绍了 BABILong 基准测试,用于评估大型语言模型在处理长上下文时的效率。评估结果表明,目前流行的语言模型仅有效地利用上下文的 10-20%,并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中,使用检索增强生成方法能够以最高 60%的准确率回答单个事实问题,而与上下文长度无关。对于上下文扩展方法,采用循环记忆变压器可以处理长度达 1100 万个标记。BABILong 基准测试可以扩展到任意长度,以支持评估具有更强能力的新模型,并为 1 百万个标记长度提供了分割。
Jun, 2024
最近的研究表明,大语言模型在处理极长文本方面具有潜力。然而,通过困惑度作为评估指标来评估大语言模型在长文本理解能力方面存在问题,困惑度仅能反映模型对局部信息的建模能力而无法捕捉长距离依赖,因此,仅通过困惑度证明模型可以处理长文本是不合适的。在评估模型的长文本能力时,应当更加注意困惑度的局限性并避免过度依赖。
May, 2024
对于大型语言模型,在抽象摘要任务中表现出色,但在多文档问答中存在输入上下文偏差,导致摘要内容分散,影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。
Oct, 2023
在极限标签分类领域中,本研究介绍了一种专门的基准测试(LIConBench),重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上,发现在 20K 的令牌长度下,大部分大语言模型表现相对良好且受益于利用长上下文窗口,然而,在上下文窗口超过 20K 后,除了 GPT-4 之外,大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战,我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。
Apr, 2024
AI agents rely on reasoning, but large language models (LLMs) have limitations in their reasoning capabilities, particularly in length generalization. This paper presents a theoretical study of the length generalization problem in reasoning tasks formulated as Markov dynamic processes (MDPs) and/or directed acyclic graphs (DAGs), identifying conditions for solving the problem and conducting experiments to validate the theoretical findings.
Nov, 2023
通过重新阅读问题信息嵌入在提示中,我们提出了一种似乎简单但非常有效的提示策略,称为 “问题重新阅读”,该方法与认知增强的原理相一致,使得大型语言模型能够提取更深入的见解,识别复杂的模式,建立更细致的联系,从而增强其在各种任务中的推理能力。
Sep, 2023
该研究探讨了基于 transformer 的语言模型的长度推广能力,发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广,并鉴别了错误的共同来源,为赋予语言模型推广到更长问题的能力提供了新的机会。
Jul, 2022
用 XL3M 框架,将上下文分解成多个独立片段并通过衡量其与 “问题” 的相关性来构建一个简明的关键上下文,从而解决了大语言模型在处理超长文本时的泛化失败问题,并在推理任务中展现了卓越的性能。
May, 2024