Jan, 2024

通过解释一致性微调实现一致的自然语言解释

TL;DR大语言模型经常生成有说服力和流畅的解释,但与人类不同,它们在不同输入上生成的解释通常不一致。本文提出了一种解释一致性微调的方法,通过对经过精心构造的合理解释的合成数据进行微调,使得大语言模型在相关示例上生成更一致的自然语言解释。这种方法在各种领域的问答数据集上获得了 10.0% 的相对解释一致性改善,并且在 7 个未在微调过程中使用的外部数据集上实现了 4.5% 的相对泛化改进。