推理时干预：从语言模型中引出真实答案

Jun, 2023

推理时干预：从语言模型中引出真实答案

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

Kenneth Li, Oam Patel, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg

TL;DR介绍了一种名为 Inference-Time Intervention 的技术，它通过在有限数量的注意头上遵循一组指南，在推理期间改变模型的激活来提高大型语言模型的真实性，该技术在 TruthfulQA 基准测试中显著提高了 LLaMA 模型的性能。

Abstract

We introduce inference-time intervention (ITI), a technique designed to enhance the truthfulness of large language models (LLMs). ITI oper

inference-time intervention large language models truthfulness llama models truthfulqa benchmark

发现论文，激发创造

NL-ITI：优化探测和干预以改进 ITI 方法

大型语言模型容易返回虚假信息，为了解决这个问题，该研究探索了一种介入推理时间的范式，引入了非线性探测和多标记介入方法，称之为 Non-Linear ITI。该方法在多种多项选择基准测试中取得了鼓舞人心的结果，并且在与其他基线和模型相比的实验中表现得更为非侵入性。

Mar, 2024

LITO: 可学习的真实性优化干预

LITO 提出了一种可学习的干预方法，通过识别特定语境下的最佳干预强度，提高真实性，并在高度不确定时选择最准确的回答或拒绝回答。

May, 2024

理解迭代提示对真实性的影响

大语言模型的发展已经明显改变了许多领域，提供了令人印象深刻的文本生成能力，然而模型的可靠性和真实性仍然是令人担忧的问题。为了解决这个问题，我们研究了迭代提示的方法，这被假设能够完善大语言模型的回答，并评估其对模型真实性的影响，这是一个尚未被彻底探索的领域。我们的大量实验深入探讨了迭代提示方法的细微差别，检查它们对模型回答的准确性和校准性的影响。我们的研究发现，朴素的提示方法严重损害了真实性，导致校准错误加剧。针对这些挑战，我们引入了几种设计用于解决已确定问题的提示变种。这些变种相比现有基准显示出明显的改善，为未来研究指明了一个有前途的方向。我们的工作提供了对迭代提示的微妙理解，并引入了增强大语言模型真实性的新方法，从而为开发更准确可信的 AI 系统做出了贡献。

Feb, 2024

SelectIT: 基于不确定性感知的选择性指导调整大型语言模型的方法

使用 SelectIT 自动选择高质量的指令调优数据，并应用于选择性 Alpaca-GPT4 数据集，提高模型性能。

Feb, 2024

指令调优的局限性

在本研究中，通过对 LLMs 进行严格实验和深入分析，我们发现 Instruction Tuning 的各种限制，比如 IT 无法增强 LLMs 的知识或技能、从知识来源中复制响应模式会导致响应质量下降、全参数微调会增加虚构错误等。同时，我们的研究还表明，仅从预训练知识中生成的响应始终优于通过 IT 学习任何形式的新知识的模型生成的响应。

Feb, 2024

TruthX: 在真实空间中编辑大型语言模型以减轻幻觉

TruthX 通过编辑语言模型内部表达的真实空间，有效提高了 13 个先进语言模型在 TruthfulQA 基准测试上的真实性表现，平均提升了 20%。进一步分析表明，TruthX 获取的真实空间在控制语言模型产生真实或幻觉性回答中发挥了关键作用。

Feb, 2024

利用局部内在维度表征大型语言模型生成的真实性

我们研究了如何表征和预测由大型语言模型生成的文本的真实性，这在人类与语言模型之间建立信任的过程中起着关键作用。通过对四个问答数据集进行实验，我们提出的方法通过研究内部激活和量化语言模型激活的本地内在维度（LID）来证明其有效性。此外，我们还研究了语言模型中的内在维度及其与模型层、自回归语言建模和语言模型训练的关系，揭示了内在维度在理解语言模型中的潜力。

Feb, 2024

LLM 内在状态知道自己在撒谎

介绍了一种基于大型语言模型的 “激活函数值” 的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Apr, 2023

在 Llama 中定位撒谎：通过提示、探究和修补解析对真假问题上的指导诚实行为

通过对大型语言模型进行研究，本文探究了指示性不诚实，即明确要求 LLaMA-2-70b-chat 撒谎，通过提示工程方法找到了最能引起撒谎行为的提示语，并使用机械性可解释性方法定位了网络中发生这种行为的位置，在这五个层中找出 46 个特别重要的注意力头，使我们能够有针对性地干预以使撒谎模型诚实回答问题，我们展示了这些干预对于多个提示和数据集分割都具有稳健的效果，总体而言，我们的工作有助于更深入理解 LLMs 中的不诚实行为，以便我们能够希望防止它的发生。

Nov, 2023

关于大型语言模型 “令人惊讶可能” 的回答的真实性研究

在这篇研究中，我们调查了类似于 Bayesian Truth Serum 的标准对 LLMs 的回答的相关性，并假设在一定条件下，根据这一标准最大化奖励的回答应该比仅最大化后验概率的回答更准确。通过使用包括 TruthfulQA 基准和开放可用的 LLMs（如 GPT-2 和 LLaMA-2）的基准实验证明该方法确实显著提高了准确性（例如，在 TruthfulQA 上的总体改进高达 24 个百分点，在各个问题类别上的改进高达 70 个百分点）。

Nov, 2023