属性 - 区分的潜空间用于语言去毒化
我们探讨了一些减轻大型语言模型毒性的策略,并分析了这些策略对模型偏差和质量的影响。我们发现:虽然基本的干预策略可以有效地优化先前建立的自动指标,但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时,我们还发现,在强减毒干预之后,人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。
Sep, 2021
本文研究了语言模型在训练过程中产生有毒语言并放大的现象,分析研究了提示,解码策略和训练语料对于产生有毒输出的影响,提出一种简单而有效的 “解毒” 方法。和监督基准相比,我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。
Mar, 2022
本文研究了使用 LM 模型在 marginalized groups 中的应用,发现目前已有的毒性去除技术会降低模型在 marginalized groups 语言中的效用,因为这些技术削弱了 LM 模型的抗分布转移能力,导致各种失败。
Apr, 2021
本文介绍了一种名为 “修正” 的方法,它利用了最新的强化学习文献中的死路理论,依据文本生成过程中各个阶段生成的文本可能被认为是有毒的概率来处理文本毒性问题,从而提高生成文本的质量和去毒能力。
Feb, 2023
本文系统性地研究了领域自适应训练方法,利用语言模型的生成能力产生无毒数据集达到更高的数据效率,通过实验证明了自生成方法可以有效降低大型语言模型毒性,即使使用小得多的训练数据,也可以在自动和人类评估中优于现有的基线方法,并且提出了适配器层训练方法来降低参数,实现了更好的毒性 - 困惑度平衡。
Feb, 2022
本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify,通过引入新的奖励机制,它能够有效地检测出有毒的内容,并减轻与社会身份相关的无意识偏见。实验表明,Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法,并且生成内容不太容易存在社会身份上的偏见。
Feb, 2022
通过使用多种语言进行训练,大型语言模型(LLMs)通常具有多语言支持,并展示出在不同语言描述的任务中解决问题的显著能力。然而,由于在不同语言之间训练数据的不均衡分布,LLMs 可能表现出语言歧视,即面对相同任务但在不同语言中描述时,难以保持一致的响应。在本研究中,我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集(AdvBench 和 NQ)对四个 LLMs(Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro)进行分析。结果显示,与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比,LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力(平均有 1.04%的有害查询成功越狱)。此外,对于英语、丹麦语、捷克语和斯洛文尼亚语的查询,LLMs 倾向于产生具有更高质量的响应(平均 F1 得分为 0.1494),与其他语言相比。基于这些发现,我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示,LDFighter 不仅显著降低了成功越狱的概率,还平均改善了响应质量,证明了其有效性。
Apr, 2024
通过提出第一种统一框架 UDDIA 来解决自然语言生成中的道德问题,该框架同时解決了去除偏见和毒性语言的问题,并提升了文本生成性能。
Oct, 2022
本文提出了一种轻量级方法,通过在预训练语言模型中添加负向指令来诱导模型生成无害内容,同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向,实现语言模型自我脱毒。实验结果表明,我们的方法无需微调或额外组件,可达到与最先进方法相当的性能。
Oct, 2023