Dec, 2023

诚实对齐

TL;DR应用对齐技术以增强大型语言模型(LLMs)的有益性和无害性,保证其在人类意图下主动拒绝回答缺乏知识的问题时不会过于保守是至关重要的。本文通过建立明确的问题定义,以及定义了《论语》所启发的 “诚实” 的基石,解决了识别 LLM 知识限度的挑战,并引入了一个灵活的训练框架和几种强调诚实而不损害其他任务性能的有效微调技术,通过提出的度量方法,证明这些对齐模型在诚实性方面有显著提高。