LITO: 可学习的真实性优化干预

May, 2024

LITO: Learnable Intervention for Truthfulness Optimization

Farima Fatahi Bayat, Xin Liu, H. V. Jagadish, Lu Wang

TL;DRLITO 提出了一种可学习的干预方法，通过识别特定语境下的最佳干预强度，提高真实性，并在高度不确定时选择最准确的回答或拒绝回答。

Abstract

large language models (LLMs) can generate long-form and coherent text, but they still frequently hallucinate facts, thus limiting their reliability. To address this issue, inference-time methods that elicit truth

large language models truthfulness optimization inference-time methods intervention intensity model generations

发现论文，激发创造

推理时干预：从语言模型中引出真实答案

介绍了一种名为 Inference-Time Intervention 的技术，它通过在有限数量的注意头上遵循一组指南，在推理期间改变模型的激活来提高大型语言模型的真实性，该技术在 TruthfulQA 基准测试中显著提高了 LLaMA 模型的性能。

Jun, 2023

NL-ITI：优化探测和干预以改进 ITI 方法

大型语言模型容易返回虚假信息，为了解决这个问题，该研究探索了一种介入推理时间的范式，引入了非线性探测和多标记介入方法，称之为 Non-Linear ITI。该方法在多种多项选择基准测试中取得了鼓舞人心的结果，并且在与其他基线和模型相比的实验中表现得更为非侵入性。

Mar, 2024

理解迭代提示对真实性的影响

大语言模型的发展已经明显改变了许多领域，提供了令人印象深刻的文本生成能力，然而模型的可靠性和真实性仍然是令人担忧的问题。为了解决这个问题，我们研究了迭代提示的方法，这被假设能够完善大语言模型的回答，并评估其对模型真实性的影响，这是一个尚未被彻底探索的领域。我们的大量实验深入探讨了迭代提示方法的细微差别，检查它们对模型回答的准确性和校准性的影响。我们的研究发现，朴素的提示方法严重损害了真实性，导致校准错误加剧。针对这些挑战，我们引入了几种设计用于解决已确定问题的提示变种。这些变种相比现有基准显示出明显的改善，为未来研究指明了一个有前途的方向。我们的工作提供了对迭代提示的微妙理解，并引入了增强大语言模型真实性的新方法，从而为开发更准确可信的 AI 系统做出了贡献。

Feb, 2024

大型语言模型如何在诚实和有帮助性之间进行平衡？

使用心理模型和实验分析了大型语言模型的处理方式，发现强化学习通过人类反馈可提高诚实性和帮助性，而思维链提示则使语言模型偏向帮助性而牺牲了诚实性。最终，GPT-4 Turbo 展现出类似于人类的回应模式，包括对话框架和听者决策背景的敏感性，揭示了语言模型内化的对话价值观，并暗示即使是这些抽象价值也可在无需提示的情况下进行引导。

Feb, 2024

两全其美：迈向一个真实和有用的大型语言模型

这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现，包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明，这些增强方法可以显著提升大语言模型的诚实性和帮助性，有望为开发更可靠的实际应用语言模型奠定基础。

Jun, 2024

TruthX: 在真实空间中编辑大型语言模型以减轻幻觉

TruthX 通过编辑语言模型内部表达的真实空间，有效提高了 13 个先进语言模型在 TruthfulQA 基准测试上的真实性表现，平均提升了 20%。进一步分析表明，TruthX 获取的真实空间在控制语言模型产生真实或幻觉性回答中发挥了关键作用。

Feb, 2024

利用局部内在维度表征大型语言模型生成的真实性

我们研究了如何表征和预测由大型语言模型生成的文本的真实性，这在人类与语言模型之间建立信任的过程中起着关键作用。通过对四个问答数据集进行实验，我们提出的方法通过研究内部激活和量化语言模型激活的本地内在维度（LID）来证明其有效性。此外，我们还研究了语言模型中的内在维度及其与模型层、自回归语言建模和语言模型训练的关系，揭示了内在维度在理解语言模型中的潜力。

Feb, 2024

关于大型语言模型 “令人惊讶可能” 的回答的真实性研究

在这篇研究中，我们调查了类似于 Bayesian Truth Serum 的标准对 LLMs 的回答的相关性，并假设在一定条件下，根据这一标准最大化奖励的回答应该比仅最大化后验概率的回答更准确。通过使用包括 TruthfulQA 基准和开放可用的 LLMs（如 GPT-2 和 LLaMA-2）的基准实验证明该方法确实显著提高了准确性（例如，在 TruthfulQA 上的总体改进高达 24 个百分点，在各个问题类别上的改进高达 70 个百分点）。

Nov, 2023

超越文字：多模态训练提升语言模型在真实性和伦理方面的能力

多模态大型语言模型（MLLMs）训练基于大型语言模型（LLM），具备理解多模态输入和生成文本响应的增强能力。本研究表明，视觉指导调整在纯自然语言处理（NLP）环境中意外且有趣地帮助模型实现了改进的真实性和道德一致性。

Sep, 2023

LLM 内在状态知道自己在撒谎

介绍了一种基于大型语言模型的 “激活函数值” 的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Apr, 2023