Jan, 2024

对比困惑度与受控生成:在去毒化大型语言模型中的应用

TL;DR研究通过对大型语言模型进行对比学习目标的整合,以实现隐式知识编辑和受控文本生成,从而解决生成不受欢迎和事实不正确的内容的问题。该方法在自毁训练方式的基础上,通过利用现成的语言模型进行数据生成,成功降低了生成有毒内容的频率,并在通用任务(如常识推理和阅读理解)中保持了模型的实用性。该方法简单且实践有效。