DESTEIN: 通过通用导航对偶和头部激活融合实现语言模型的过滤式导航

Apr, 2024

DESTEIN: 通过通用导航对偶和头部激活融合实现语言模型的过滤式导航

DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion

Yu Li, Zhihua Wei, Han Jiang, Chuanyang Gong

TL;DR该研究提出了 DeStein，一种通过调整激活空间内的内部表示来净化语言模型的新方法，该方法在资源和时间成本较低的情况下实现了混合解毒向量和原始表示，实证结果表明该方法在常用的解毒评估指标上明显优于现有的最先进方法，并保持了令人满意的生成质量和多样性，同时还将该方法扩展到多个大型语言模型，展示了其实用性和可扩展性。

Abstract

Despite the remarkable achievements of language models (LMs) across a broad spectrum of tasks, their propensity for generating toxic outputs remains a prevalent concern. Current solutions involving fine-tuning or

language models toxic outputs destein detoxification vectors generation quality

发现论文，激发创造

逐步解毒语言模型

针对语言模型的解毒具有挑战性，本文提出了分解解毒过程、基于无毒提示的连续生成以及使用 Detox-Chain 进行有序连接的方法来实现显著的解毒和生成改进。

Aug, 2023

驾驭内心恶魔：语言模型自我解毒

本文研究了语言模型在训练过程中产生有毒语言并放大的现象，分析研究了提示，解码策略和训练语料对于产生有毒输出的影响，提出一种简单而有效的 “解毒” 方法。和监督基准相比，我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。

Mar, 2022

清理语言模型风险边缘化少数群体声音

本文研究了使用 LM 模型在 marginalized groups 中的应用，发现目前已有的毒性去除技术会降低模型在 marginalized groups 语言中的效用，因为这些技术削弱了 LM 模型的抗分布转移能力，导致各种失败。

Apr, 2021

通过毒化逆转实现自我解毒的语言模型

本文提出了一种轻量级方法，通过在预训练语言模型中添加负向指令来诱导模型生成无害内容，同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向，实现语言模型自我脱毒。实验结果表明，我们的方法无需微调或额外组件，可达到与最先进方法相当的性能。

Oct, 2023

通过死路分析系统性地修正语言模型

本文介绍了一种名为 “修正” 的方法，它利用了最新的强化学习文献中的死路理论，依据文本生成过程中各个阶段生成的文本可能被认为是有毒的概率来处理文本毒性问题，从而提高生成文本的质量和去毒能力。

Feb, 2023

基于推理时自适应优化的语言生成中的统一去毒化和去偏见处理

通过提出第一种统一框架 UDDIA 来解决自然语言生成中的道德问题，该框架同时解決了去除偏见和毒性语言的问题，并提升了文本生成性能。

Oct, 2022

通过知识编辑对大型语言模型进行毒素清除

使用知识编辑技术解毒大型语言模型，并提出了一种简单而有效的基线方法，减小了毒性参数的影响并进行了内部机制的深度分析，为未来的解毒方法和语言模型的知识机制提供了启示。

Mar, 2024

上下文态度控制中的语言模型解毒

提议一种新的方法进行基于上下文的控制以降低语言模型生成的有害语言，将语境的立场纳入考虑，实现生成的立场控制前缀与毒性控制前缀的组合，经实验证明该方法可以有效地学习基于上下文的立场控制策略并保持低的自毒性。

Jan, 2023

属性 - 区分的潜空间用于语言去毒化

此研究提出了使用属性鑑别潜在空間进行语言去毒化的方法，通过投影技术和鑑别器帮助文本被其属性分离，以实现最小内存和计算开销的非毒性文本生成，取得了比基线更优秀的性能和效率。

Oct, 2022

使用大型多语言模型探索跨语言文本风格转移

研究多语言和跨语言毒化以及大型多语言模型在该环境中的行为，探讨使大型语言模型能够在给定语言中执行解毒操作而无需直接微调的方法；实验证明，多语言模型能够执行多语言风格转换，但是模型无法执行跨语言解毒，所以对特定语言进行直接微调是不可避免的。

Jun, 2022