大型语言模型的细粒度排毒与实例级前缀

Feb, 2024

大型语言模型的细粒度排毒与实例级前缀

Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models

Xin Yi, Linlin Wang, Xiaoling Wang, Liang He

TL;DR使用细粒度去毒化的方法通过添加正向和多个负向前缀构造细粒度的次毒性向量，从而在提供原始提示时协同去毒，进而实现对毒性文本的控制生成。

Abstract

Impressive results have been achieved in natural language processing (NLP) tasks through the training of large language models (LLMs). However, these models occasionally produce toxic content such as insults, thr

natural language processing large language models toxicity mitigation fine-grained detoxification text generation

发现论文，激发创造

通过毒化逆转实现自我解毒的语言模型

本文提出了一种轻量级方法，通过在预训练语言模型中添加负向指令来诱导模型生成无害内容，同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向，实现语言模型自我脱毒。实验结果表明，我们的方法无需微调或额外组件，可达到与最先进方法相当的性能。

Oct, 2023

GPT-DETOX: 文本解毒的上下文学习重述器

提出了基于 GPT-3.5 Turbo 的 GPT-DETOX 框架，利用零样本学习和少样本学习技术进行文本排毒，同时使用基于词匹配和上下文匹配的 few-shot 提示生成方法，并采用集成学习策略，实现了在两个排毒数据集上至少 10% 的性能改进。

Apr, 2024

只需一次提示：大型语言模型的提示学习能力对抗有害内容的能力探究

使用大型语言模型和提示学习方法解决有毒内容问题，特别关注有毒内容的分类、有毒区域检测和解毒化三个任务，通过广泛评估发现，与针对特定任务训练的模型相比，具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能，对于解毒化任务，提示学习方法成功降低了平均有毒度，同时保持语义含义。

Aug, 2023

具有对比解码的参数高效排毒

Detoxification Generator (DETOXIGEN) is an algorithm that controls the attributes of generated text, particularly avoiding toxicity, by using an ensemble of a pre-trained language model and a detoxifier trained on toxic data.

Jan, 2024

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022

基于推理时自适应优化的语言生成中的统一去毒化和去偏见处理

通过提出第一种统一框架 UDDIA 来解决自然语言生成中的道德问题，该框架同时解決了去除偏见和毒性语言的问题，并提升了文本生成性能。

Oct, 2022

通过死路分析系统性地修正语言模型

本文介绍了一种名为 “修正” 的方法，它利用了最新的强化学习文献中的死路理论，依据文本生成过程中各个阶段生成的文本可能被认为是有毒的概率来处理文本毒性问题，从而提高生成文本的质量和去毒能力。

Feb, 2023

评估语言模型中神经毒性退化的 RealToxicityPrompts

该研究通过创建 RealToxicityPrompts 数据集，使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力，指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。

Sep, 2020

驾驭内心恶魔：语言模型自我解毒

本文研究了语言模型在训练过程中产生有毒语言并放大的现象，分析研究了提示，解码策略和训练语料对于产生有毒输出的影响，提出一种简单而有效的 “解毒” 方法。和监督基准相比，我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。

Mar, 2022

让模型回应：透过提示依赖的视角解释语言模型去毒化

通过使用特征归因方法，将几种受欢迎的脱敏方法应用于几种语言模型，并量化它们对结果模型的提示依赖性的影响，评估拟议反叙述微调的有效性并将其与驱动脱敏的强化学习进行比较，观察到两种方法之间的提示依赖性差异，尽管它们的脱敏表现类似。

Sep, 2023