大型语言模型容易受到无关语境的干扰

Jan, 2023

大型语言模型容易受到无关语境的干扰

Large Language Models Can Be Easily Distracted by Irrelevant Context

Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan...

TL;DR本文研究了大型语言模型对干扰信息的容忍度。通过提出了一个包含干扰性信息的四则运算数据集来评估最新提示技术在干扰信息存在时的性能。结果表明，干扰信息会显著降低大型语言模型的性能，但通过自一致解码和添加指令等方法可缓解这一问题。

Abstract

large language models have achieved impressive performance on various natural language processing tasks. However, so far they have been evaluated primarily on benchmarks where all information in the input context is relevant for solving the task. In this work, we investigate the

large language models distractibility prompting techniques irrelevant information arithmetic reasoning

发现论文，激发创造

噪声排除：测试预训练语言模型信息处理的鲁棒性

本研究通过让模型处理带有分散注意力内容的填空任务，检验了预训练语言模型利用关键上下文信息的能力；研究结果表明，模型往往只是依靠表面上与上下文有关的信息进行预测，而对于上下文语境的理解能力不及预期。

Sep, 2021

大型语言模型对无关输入的响应会如何被扭曲？

通过检索外部知识数据库，大语言模型在许多知识密集型任务中展示出增强的能力。然而，由于当前检索系统的固有缺陷，存在于排名靠前段落中的信息可能是不相关的。本文全面研究了 LLMs 对不同类型不相关信息在各种条件下的鲁棒性，通过构建高质量的不相关信息框架，展示了当前解决不相关信息的方案在提高 LLMs 对这些干扰的鲁棒性方面存在局限性。

Apr, 2024

关于小学算术的大型语言模型性能的仔细检查

大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功，但人们越来越担心其中的一部分性能实际上是由于数据集污染，而不是真正的推理能力。调查显示，许多模型可能已经部分记忆了基准测试的例子，导致在新的基准测试上准确度下降。

May, 2024

背景问题：为科学应用数据高效扩充的大型语言模型

本文研究了大型语言模型（如 GPT-4）存在的挑战，特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战，旨在增强对此类错误的理解和缓解，从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外，我们证明了在正确校准的情况下，可能实现自动评分 —— 这一发现表明，至少在某种程度上，LLMs 可以用于自我检验其性能质量。最后，我们描述了一个实验平台，可以被视为对本文描述的技术的概念验证。

Dec, 2023

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

语言模型是多语言的思维链推理器

通过使用多种类型不同的语言，我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言，评估了大型语言模型在多语种环境下的推理能力，并提出了 MGSM 基准。我们发现，随着模型规模的增加，使用思维链提示解决 MGSM 问题的能力越来越强，即使在孟加拉语和斯瓦希里语等少数语言中，这些模型也具有非常强的多语种推理能力。最后，我们展示了语言模型的多语种推理能力扩展到其他任务，例如常识推理和上下文语义判断。

Oct, 2022

大规模语言模型的鲁棒可扩展模型编辑

利用 EREN（通过阅读笔记编辑模型）提出方法来提高大型语言模型的可伸缩性和鲁棒性，通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识，优于现有技术。

Mar, 2024

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

对大型语言模型的 “隐式” 检索鲁棒性的评估

通过评估各种大规模语言模型的 “隐式” 检索鲁棒性，我们发现混合了黄金和干扰性上下文进行微调显著提高了模型对检索不准确性的鲁棒性，同时仍然保持着在检索准确时提取正确答案的能力，这表明大规模语言模型可以通过仅从最终答案的监督中学习来隐式处理相关或无关的检索上下文，并且引入显式相关性判断的额外过程可能是不必要的并且会打断端到端的方法。

Jun, 2024