长语境语言建模中困惑度的缺陷
该研究分析了两个能够接受高达8K Token的长文本转换器语言模型,发现将长距离上下文提供给这些模型只会在少数Token上提高其预测能力(例如可以从远处文本中复制的Token),对于句子级别的预测任务没有任何帮助;并且长范围上下文对文学小说的帮助最大。
Sep, 2021
基于LooGLE评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023
大语言模型的出现在自然语言处理领域具有重大突破,但是它们在上下文长度的推断方面常常存在限制。了解和扩展大语言模型的上下文长度对于提升其在各种自然语言处理应用中的性能至关重要。本综述论文将深入探讨为什么扩展上下文长度以及先进技术可能带来的潜在变革。我们研究了扩展上下文长度所固有的挑战,并对研究人员采用的现有策略进行了有组织的概述。此外,我们讨论了评估上下文扩展技术的复杂性,并突出研究人员在该领域面临的开放性挑战。此外,我们探讨了研究界对于评估标准是否存在共识,并确定了需要进一步达成共识的领域。这份全面的综述旨在为研究人员提供有价值的资源,引导他们了解上下文长度扩展技术的技巧,并促进对这一不断发展领域的未来进展的讨论。
Jan, 2024
大语言模型处理长上下文是许多实际应用的关键,有必要评估和比较它们在处理100K+上下文时的能力。本文提出了第一个超过100K标记平均数据长度的大语言模型基准测试,对处理长上下文的现有模型进行了评价,并提出了对处理长上下文的大语言模型行为的三个有趣分析。
Feb, 2024
本研究探讨了扩展输入长度对大型语言模型 (LLMs) 能力的影响。通过引入一种新型问答推理框架,重点评估输入长度对性能的影响。结果显示,在远低于技术最大值的输入长度时,LLMs 的推理性能显著下降,而且这种降级趋势在数据集的每个版本中都存在,尽管强度有所不同。此外,研究还发现传统的困惑度度量与 LLMS 在长输入推理任务中的性能无关。通过分析结果,我们鉴定了失效模式,这些模式对未来的研究可能具有指导意义,并有望解决 LLMS 中观察到的限制。
Feb, 2024
最近的研究表明,大语言模型在处理极长文本方面具有潜力。然而,通过困惑度作为评估指标来评估大语言模型在长文本理解能力方面存在问题,困惑度仅能反映模型对局部信息的建模能力而无法捕捉长距离依赖,因此,仅通过困惑度证明模型可以处理长文本是不合适的。在评估模型的长文本能力时,应当更加注意困惑度的局限性并避免过度依赖。
May, 2024
提出了一个名为ProLong的数据挖掘框架,该框架可以在大型语言模型(LLMs)的训练中分配每个样本一个长依赖得分,用于排名和过滤对增强长上下文建模能力更为有利的样本,实验结果表明,ProLong能够有效识别具有长依赖关系的文档,并且在这些文档上训练的LLMs显著提高了长上下文建模能力。
May, 2024
LongSkywork是一种具有长上下文处理能力的大型语言模型 (LLM),通过在标准SFT阶段之后添加长上下文SFT阶段来增强长上下文处理能力,使用合成数据的方法显著提高了训练效率,并在各种长上下文基准测试中取得了出色的表现。
Jun, 2024
本研究解决了在大语言模型中有效处理长上下文时存在的评估不确定性问题。通过实施标准化的评估协议,研究揭示了困惑度在长上下文任务中的重要性,并指出当前近似注意力方法的系统性低效,同时证实精确微调方法在其扩展范围内的有效性,推动了这一关键领域的研究发展。
Sep, 2024
本研究解决了当前长上下文模型扩展方法的比较和评估挑战。通过实施标准化的评估协议,我们发现困惑度在长上下文任务中仍然是重要的性能指标,而现有的近似注意力方法在长上下文任务中表现不佳。研究结果强调了精确微调方法的有效性,并推动了这一领域的透明性和后续研究。
Sep, 2024