冗长不等于真实:揭示大型语言模型的冗长补偿行为
该研究探讨了基于黑盒LLMs的自然语言生成的不确定性计量,提出几个置信度/不确定度统计度量标准,并发现语义分散的平均值可以作为评估LLMs响应质量的可靠指标。
May, 2023
利用预训练的奖励模型作为诊断工具,我们提出了一种用于评估大规模语言模型的稳健性的新方法,称为奖励模型合理鲁棒性评估(TREvaL)。经过广泛的实证实验,我们发现TREvaL在评估大规模语言模型的稳健性方面提供了一种准确的方法,尤其是在面对更具挑战性的开放性问题时。此外,我们的结果表明,大规模语言模型经常表现出对词级扰动的脆弱性,而这种扰动在日常语言使用中很普遍。令人惊讶的是,我们发现随着进一步的微调(SFT和RLHF)进行,模型的鲁棒性往往会降低。
Sep, 2023
近年来,大型语言模型(LLMs)在自然语言处理和机器学习领域取得了显著的发展,其性能提升的一个关键因素是通过人类反馈实现与人类的对齐,同时研究发现其他LLMs进行强化学习也可以取代人类反馈。本文研究了使用其他LLMs来评估LLMs时出现的偏差,并着重探究了冗长性偏差——即LLMs有时倾向于提供更冗长的答案,即使质量相似。我们发现在我们的问题设置中,GPT-4更倾向于提供更长的答案,我们提出了一种度量这种偏差的指标。
Oct, 2023
通过引入Divergent Token metrics (DTMs)方法,本研究探索了对大型语言模型进行压缩的方法,并评估了压缩后模型的文本生成质量。结果表明,可以在不损害文本生成质量的情况下达到显著的精确度和稀疏度水平,而且DTMs可以更精确地评估模型各组件的影响。使用第一分歧标记度量(FDTM)进行模型稀疏化分析发现,可以剪枝超过90%的组件。在量化方面,FDTM建议可以将超过80%的参数直接转换为int8,而无需特殊的异常值管理。
Nov, 2023
大型语言模型在多项选择问答任务中的最大 softmax 概率(MSP)与正确答案相比与错误答案相关性强,对问答任务表现优异的模型的 MSP 生成的 AUROC 在 59/60 情况中高于随机概率,并在最佳的六个模型中 AUROC 平均为 60% 到 69%。通过基于初始模型响应的 MSP 有选择地弃权,提出了一种能提高性能的多项选择问答任务。同样,我们使用预修正前 logit 进行了相同的实验,并获得了类似(但不完全相同)的结果。
Feb, 2024
本研究探讨了扩展输入长度对大型语言模型 (LLMs) 能力的影响。通过引入一种新型问答推理框架,重点评估输入长度对性能的影响。结果显示,在远低于技术最大值的输入长度时,LLMs 的推理性能显著下降,而且这种降级趋势在数据集的每个版本中都存在,尽管强度有所不同。此外,研究还发现传统的困惑度度量与 LLMS 在长输入推理任务中的性能无关。通过分析结果,我们鉴定了失效模式,这些模式对未来的研究可能具有指导意义,并有望解决 LLMS 中观察到的限制。
Feb, 2024
大语言模型(LLMs)在各种NLP任务中展示了非凡的能力。我们的研究首先强调了目前UQ方法在处理长文本生成时的局限性,然后介绍了Luq,一种专门设计用于长文本的基于采样的UQ方法。我们的发现表明,Luq在与模型的准确性分数相关性方面优于现有的基准方法。通过Luq作为UQ工具,我们调查了几个流行LLMs的响应信心谱行为模式及其与事实性响应的相互作用。我们发现LLMs在生成罕见事实的长文本上缺乏信心,而事实准确的模型(如GPT-4)倾向于拒绝其不确定的问题。为了进一步提高LLM响应的事实准确性,我们提出了一种称为Luq-Ensemble的方法,该方法对来自多个模型的响应进行集成并选择不确定性最小的响应。这种集成方法极大地提高了响应的事实性,超越了最佳独立LLM的表现。
Mar, 2024
我们引入了多次重复提示(MSR)攻击,这是一种新的黑盒成员推理攻击框架,用于检查大型语言模型(LLMs)中逐字复制的内容。我们将MSR提示应用于不同的文本来源,包括维基百科文章和开放教育资源(OER)教科书,在这些来源中,LLMs更容易复制逐字内容。
May, 2024
通过人工引入各种程度的噪音到多样的数据集中,系统评估了大型语言模型对原始文本的变异的鲁棒性。研究结果显示,与流行观点相反,生成型大型语言模型对于文本中的噪音干扰非常稳健,并在语法错误修正(GEC)和词汇语义变化(LSC)等常见错误的基准任务上取得了新的技术水平。
Jul, 2024
本研究探讨了冗长语言模型翻译对评估的影响,指出了在机器翻译中冗长输出的普遍存在及其主要触发因素,如安全性、版权问题与输入查询上下文不足。研究发现,在评估中忽视这一现象会不公平地惩罚输出更冗长的语言模型,从而强调了未来评估准确性的重要性。
Oct, 2024