AAAIMar, 2022

驾驭内心恶魔:语言模型自我解毒

TL;DR本文研究了语言模型在训练过程中产生有毒语言并放大的现象,分析研究了提示,解码策略和训练语料对于产生有毒输出的影响,提出一种简单而有效的 “解毒” 方法。和监督基准相比,我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。