本文提出了一种轻量级方法,通过在预训练语言模型中添加负向指令来诱导模型生成无害内容,同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向,实现语言模型自我脱毒。实验结果表明,我们的方法无需微调或额外组件,可达到与最先进方法相当的性能。
Oct, 2023
针对语言模型的解毒具有挑战性,本文提出了分解解毒过程、基于无毒提示的连续生成以及使用 Detox-Chain 进行有序连接的方法来实现显著的解毒和生成改进。
Aug, 2023
本文研究了使用 LM 模型在 marginalized groups 中的应用,发现目前已有的毒性去除技术会降低模型在 marginalized groups 语言中的效用,因为这些技术削弱了 LM 模型的抗分布转移能力,导致各种失败。
Apr, 2021
通过对 Reddit 对话情景下的回应训练,研究对话模型响应中的攻击性语言,实验结果表明神经网络对话模型容易学习产生攻击性的回应,使用可控文本生成模型可以减少攻击性回复产生的数量。
Aug, 2021
本研究探讨自回归语言模型生成的上下文倾向于产生不良偏见和毒性,提出使用有害文本作为附加资源组合两种去偏见方法来减少毒性,结果表明有害文本可以显着减少语言生成过程的毒性,为现有去偏见方法提供了补充。
Apr, 2022
研究通过对大型语言模型进行对比学习目标的整合,以实现隐式知识编辑和受控文本生成,从而解决生成不受欢迎和事实不正确的内容的问题。该方法在自毁训练方式的基础上,通过利用现成的语言模型进行数据生成,成功降低了生成有毒内容的频率,并在通用任务(如常识推理和阅读理解)中保持了模型的实用性。该方法简单且实践有效。
Jan, 2024
本文研究了语言模型在训练过程中产生有毒语言并放大的现象,分析研究了提示,解码策略和训练语料对于产生有毒输出的影响,提出一种简单而有效的 “解毒” 方法。和监督基准相比,我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。
Mar, 2022
我们探讨了一些减轻大型语言模型毒性的策略,并分析了这些策略对模型偏差和质量的影响。我们发现:虽然基本的干预策略可以有效地优化先前建立的自动指标,但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时,我们还发现,在强减毒干预之后,人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。
Sep, 2021
通过使用特征归因方法,将几种受欢迎的脱敏方法应用于几种语言模型,并量化它们对结果模型的提示依赖性的影响,评估拟议反叙述微调的有效性并将其与驱动脱敏的强化学习进行比较,观察到两种方法之间的提示依赖性差异,尽管它们的脱敏表现类似。
Sep, 2023
提出了基于 GPT-3.5 Turbo 的 GPT-DETOX 框架,利用零样本学习和少样本学习技术进行文本排毒,同时使用基于词匹配和上下文匹配的 few-shot 提示生成方法,并采用集成学习策略,实现了在两个排毒数据集上至少 10% 的性能改进。
Apr, 2024