该研究介绍了新的 “全面优化毒性”(TET)数据集,由手工设计的提示构成,旨在抵消这些模型的保护层,通过广泛的评估,证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用,凸显了正常提示下可能隐藏的 LLMs 中的毒性,从而揭示了它们行为中更微妙的问题。
May, 2024
本文研究了语言模型在训练过程中产生有毒语言并放大的现象,分析研究了提示,解码策略和训练语料对于产生有毒输出的影响,提出一种简单而有效的 “解毒” 方法。和监督基准相比,我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。
Mar, 2022
大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏,我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复,有效性达到 92%,速度快 10 到 20 倍,对编码任务也适用。
Dec, 2023
该研究通过创建 RealToxicityPrompts 数据集,使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力,指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。
Sep, 2020
本文探讨零样本基于提示的毒性检测方法的生成变量,通过对提示工程的全面试验在三个社交媒体数据集上进行验证,并讨论了自诊断及其伦理影响的有趣方面。
May, 2022
本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify,通过引入新的奖励机制,它能够有效地检测出有毒的内容,并减轻与社会身份相关的无意识偏见。实验表明,Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法,并且生成内容不太容易存在社会身份上的偏见。
Feb, 2022
使用大型语言模型和提示学习方法解决有毒内容问题,特别关注有毒内容的分类、有毒区域检测和解毒化三个任务,通过广泛评估发现,与针对特定任务训练的模型相比,具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能,对于解毒化任务,提示学习方法成功降低了平均有毒度,同时保持语义含义。
Aug, 2023
本研究探讨自回归语言模型生成的上下文倾向于产生不良偏见和毒性,提出使用有害文本作为附加资源组合两种去偏见方法来减少毒性,结果表明有害文本可以显着减少语言生成过程的毒性,为现有去偏见方法提供了补充。
Apr, 2022
引入 BiasX 框架,通过大规模的众包用户研究,探索使用自由文本解释内容中隐含的社会偏见,以有效增强内容审核设置,我们发现,参与者因正确识别微妙的(非)有毒内容而受益。解释的质量很关键,完美的机器生成解释(+2.4% 的有毒难题)帮助不如专业撰写的人类解释(+7.2%)。我们的结果展示了使用自由文本解释鼓励更加深思熟虑的毒性审核的承诺。
May, 2023
本文介绍了一种名为 “修正” 的方法,它利用了最新的强化学习文献中的死路理论,依据文本生成过程中各个阶段生成的文本可能被认为是有毒的概率来处理文本毒性问题,从而提高生成文本的质量和去毒能力。
Feb, 2023