属性 - 区分的潜空间用于语言去毒化

Oct, 2022

属性 - 区分的潜空间用于语言去毒化

Language Detoxification with Attribute-Discriminative Latent Space

Jin Myung Kwak, Minseon Kim, Sung Ju Hwang

TL;DR此研究提出了使用属性鑑别潜在空間进行语言去毒化的方法，通过投影技术和鑑别器帮助文本被其属性分离，以实现最小内存和计算开销的非毒性文本生成，取得了比基线更优秀的性能和效率。

Abstract

transformer-based language models (LMs) achieve remarkable performances on a variety of NLU tasks, but are also prone to generating toxic texts such as insults, threats, and profanities which limit their adaptations to the real-world applications. To overcome this issue, a few

transformer-based language models detoxification latent space attribute-discriminative language model text generation

发现论文，激发创造

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

驾驭内心恶魔：语言模型自我解毒

本文研究了语言模型在训练过程中产生有毒语言并放大的现象，分析研究了提示，解码策略和训练语料对于产生有毒输出的影响，提出一种简单而有效的 “解毒” 方法。和监督基准相比，我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。

Mar, 2022

清理语言模型风险边缘化少数群体声音

本文研究了使用 LM 模型在 marginalized groups 中的应用，发现目前已有的毒性去除技术会降低模型在 marginalized groups 语言中的效用，因为这些技术削弱了 LM 模型的抗分布转移能力，导致各种失败。

Apr, 2021

通过死路分析系统性地修正语言模型

本文介绍了一种名为 “修正” 的方法，它利用了最新的强化学习文献中的死路理论，依据文本生成过程中各个阶段生成的文本可能被认为是有毒的概率来处理文本毒性问题，从而提高生成文本的质量和去毒能力。

Feb, 2023

探索域自适应训练对于大规模语言模型去毒化的极限

本文系统性地研究了领域自适应训练方法，利用语言模型的生成能力产生无毒数据集达到更高的数据效率，通过实验证明了自生成方法可以有效降低大型语言模型毒性，即使使用小得多的训练数据，也可以在自动和人类评估中优于现有的基线方法，并且提出了适配器层训练方法来降低参数，实现了更好的毒性 - 困惑度平衡。

Feb, 2022

逐步解毒语言模型

针对语言模型的解毒具有挑战性，本文提出了分解解毒过程、基于无毒提示的连续生成以及使用 Detox-Chain 进行有序连接的方法来实现显著的解毒和生成改进。

Aug, 2023

基于 Transformer 的语言模型降低毒性的奖励建模

本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify，通过引入新的奖励机制，它能够有效地检测出有毒的内容，并减轻与社会身份相关的无意识偏见。实验表明，Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法，并且生成内容不太容易存在社会身份上的偏见。

Feb, 2022

评估和缓解大型语言模型中的语言歧视

通过使用多种语言进行训练，大型语言模型（LLMs）通常具有多语言支持，并展示出在不同语言描述的任务中解决问题的显著能力。然而，由于在不同语言之间训练数据的不均衡分布，LLMs 可能表现出语言歧视，即面对相同任务但在不同语言中描述时，难以保持一致的响应。在本研究中，我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集（AdvBench 和 NQ）对四个 LLMs（Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro）进行分析。结果显示，与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比，LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力（平均有 1.04％的有害查询成功越狱）。此外，对于英语、丹麦语、捷克语和斯洛文尼亚语的查询，LLMs 倾向于产生具有更高质量的响应（平均 F1 得分为 0.1494），与其他语言相比。基于这些发现，我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示，LDFighter 不仅显著降低了成功越狱的概率，还平均改善了响应质量，证明了其有效性。

Apr, 2024

基于推理时自适应优化的语言生成中的统一去毒化和去偏见处理

通过提出第一种统一框架 UDDIA 来解决自然语言生成中的道德问题，该框架同时解決了去除偏见和毒性语言的问题，并提升了文本生成性能。

Oct, 2022

通过毒化逆转实现自我解毒的语言模型

本文提出了一种轻量级方法，通过在预训练语言模型中添加负向指令来诱导模型生成无害内容，同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向，实现语言模型自我脱毒。实验结果表明，我们的方法无需微调或额外组件，可达到与最先进方法相当的性能。

Oct, 2023