EMNLPJan, 2023

上下文态度控制中的语言模型解毒

TL;DR提议一种新的方法进行基于上下文的控制以降低语言模型生成的有害语言,将语境的立场纳入考虑,实现生成的立场控制前缀与毒性控制前缀的组合,经实验证明该方法可以有效地学习基于上下文的立场控制策略并保持低的自毒性。