通过解释一致性微调实现一致的自然语言解释

Jan, 2024

通过解释一致性微调实现一致的自然语言解释

Towards Consistent Natural-Language Explanations via Explanation-Consistency Finetuning

Yanda Chen, Chandan Singh, Xiaodong Liu, Simiao Zuo, Bin Yu...

TL;DR大语言模型经常生成有说服力和流畅的解释，但与人类不同，它们在不同输入上生成的解释通常不一致。本文提出了一种解释一致性微调的方法，通过对经过精心构造的合理解释的合成数据进行微调，使得大语言模型在相关示例上生成更一致的自然语言解释。这种方法在各种领域的问答数据集上获得了 10.0% 的相对解释一致性改善，并且在 7 个未在微调过程中使用的外部数据集上实现了 4.5% 的相对泛化改进。

Abstract

large language models (LLMs) often generate convincing, fluent explanations. However, different from humans, they often generate inconsistent explanations on different inputs. For example, an LLM may generate the explanation "all birds can fly" when answering the question "Can sparrows

large language models explanation-consistency finetuning natural-language explanations question-answering datasets explanation consistency improvement

发现论文，激发创造

基于解释的微调使模型对虚假线索更加鲁棒

本文提出了基于解释的微调作为一种缓解大型语言模型依赖错误相关的新颖通用方法，并在人工构建的训练集上微调模型，使其更加强壮。与标准微调不同，我们不仅仅针对输入进行预测，还微调模型以生成支持其答案的自由文本解释。与标准微调相比，我们的方法在四个分类任务中使模型对伪线索具有明显更强的稳健性。此外，我们的方法同样适用于由模型生成的解释，暗示了其在更多数据集上的适用性。

May, 2023

通过一致对齐提升大型语言模型的鲁棒性

定义了指令不一致问题并提出了两阶段训练框架，在第一阶段通过相似指令增强帮助模型跟随指令，第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性，并通过自奖励训练过程来验证该框架的有效性。

Mar, 2024

模型是否自我解释：自然语言解释的反事实仿真性

本篇论文中，我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示，当前大型语言模型 (LLMs) 的解释精度相对较低，精度与可信度相关性也不高。因此，单纯依赖人类评判可能不足以解决问题。

Jul, 2023

大语言模型的解释提升小推断者的性能

利用大型语言模型的自由文本解释来提高小型模型的推理能力，将有助于实现可解释的 AI，并可以在理解所做的预测的过程中生成高质量的解释。

Oct, 2022

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

大型语言模型能自我解释吗？

利用自洽性检查作为一种忠实度测量，将其应用于大型语言模型自我解释的三种类型，即反事实解释、重要性度量和删除。通过不同任务和模型，发现忠实度是任务和模型相关的，例如对于情感分类，Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后，我们的发现在提示变体方面是稳健的。

Jan, 2024

展现操作方式：解释在细调语言模型中的作用

我们的研究证明了使用解释来进行微调以提高语言模型性能的显著效益。与提示相比，微调允许模型在训练阶段学习和更新参数。我们将微调应用于包含输出解释而非仅呈现答案的数据中的各种规模的语言模型。即使是具有 6000 万参数的较小语言模型也从该方法中获益良多。有趣的是，我们的结果表明详细解释对较小的模型比大模型更有益处，后者几乎从任何形式的解释中获得同样的优势，无论其长度是多少。此外，我们证明包含解释使模型能够解决无法在没有解释的情况下解决的任务。最后，我们认为尽管添加解释具有挑战性，但包含解释的样本不仅减少了训练所需的数据量，还促进了模型的更有效泛化。总之，我们的研究结果表明，使用解释进行微调显著增强了大型语言模型的性能。

Feb, 2024

通过概率推理实现逻辑一致的语言模型

通过引入基于原则的概率推理训练目标，本研究改进了大型语言模型的逻辑一致性和新知识推理能力。

Apr, 2024

通过 LLM - 符号定理证明验证和改进自然语言解释

通过将大型语言模型（LLMs）与定理证明器（TPs）相结合，本文研究了自然语言解释的验证和改进，提出了一个名为 Explanation-Refiner 的神经符号框架，用于生成和形式化解释句子，并为自然语言推理（NLI）提供潜在的推理策略。同时，定理证明器用于提供解释逻辑有效性的形式保证，并针对改进提供反馈。展示了如何共同使用 Explanation-Refiner 来评估最先进的 LLMs 的解释推理、自动形式化和错误纠正机制，以及自动提高不同领域中复杂性不同的人工注释解释的质量。

May, 2024

语言模型能否从上下文中的解释中学习？

通过对 40 个具有挑战性的任务提出带有答案解释的问题及各种匹配控制解释，我们发现解释可以提高大型语言模型在具有挑战性的任务上的零次和少量样本的表现，并且仅大型模型有益处。

Apr, 2022