大型语言模型容易受到无关语境的干扰
本研究通过让模型处理带有分散注意力内容的填空任务,检验了预训练语言模型利用关键上下文信息的能力;研究结果表明,模型往往只是依靠表面上与上下文有关的信息进行预测,而对于上下文语境的理解能力不及预期。
Sep, 2021
通过检索外部知识数据库,大语言模型在许多知识密集型任务中展示出增强的能力。然而,由于当前检索系统的固有缺陷,存在于排名靠前段落中的信息可能是不相关的。本文全面研究了 LLMs 对不同类型不相关信息在各种条件下的鲁棒性,通过构建高质量的不相关信息框架,展示了当前解决不相关信息的方案在提高 LLMs 对这些干扰的鲁棒性方面存在局限性。
Apr, 2024
大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功,但人们越来越担心其中的一部分性能实际上是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
May, 2024
本文研究了大型语言模型(如 GPT-4)存在的挑战,特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战,旨在增强对此类错误的理解和缓解,从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外,我们证明了在正确校准的情况下,可能实现自动评分 —— 这一发现表明,至少在某种程度上,LLMs 可以用于自我检验其性能质量。最后,我们描述了一个实验平台,可以被视为对本文描述的技术的概念验证。
Dec, 2023
使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时,检索到的信息能够提高模型的性能,并且不会损害性能。该研究分析了五个开放领域问答基准,并提出了两种方法以减轻性能下降问题。
Oct, 2023
本文从贝叶斯的角度出发,将大型语言模型视作主题模型,提出了一种从标注数据中选择最佳示范的算法,并在实际数据集中证明相对于随机选择基线,平均有 12.5% 的显著改进。研究表明,大型语言模型从示范中隐式地推断出潜在的概念变量。
Jan, 2023
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
利用 EREN(通过阅读笔记编辑模型)提出方法来提高大型语言模型的可伸缩性和鲁棒性,通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识,优于现有技术。
Mar, 2024
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
通过评估各种大规模语言模型的 “隐式” 检索鲁棒性,我们发现混合了黄金和干扰性上下文进行微调显著提高了模型对检索不准确性的鲁棒性,同时仍然保持着在检索准确时提取正确答案的能力,这表明大规模语言模型可以通过仅从最终答案的监督中学习来隐式处理相关或无关的检索上下文,并且引入显式相关性判断的额外过程可能是不必要的并且会打断端到端的方法。
Jun, 2024