对比困惑度与受控生成：在去毒化大型语言模型中的应用

Jan, 2024

对比困惑度与受控生成：在去毒化大型语言模型中的应用

Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models

Tassilo Klein, Moin Nabi

TL;DR研究通过对大型语言模型进行对比学习目标的整合，以实现隐式知识编辑和受控文本生成，从而解决生成不受欢迎和事实不正确的内容的问题。该方法在自毁训练方式的基础上，通过利用现成的语言模型进行数据生成，成功降低了生成有毒内容的频率，并在通用任务（如常识推理和阅读理解）中保持了模型的实用性。该方法简单且实践有效。

Abstract

The generation of undesirable and factually incorrect content of large language models poses a significant challenge and remains largely an unsolved issue. This paper studies the integration of a contrastive learning ob

undesirable content factually incorrect content contrastive learning objective implicit knowledge editing controlled text generation

发现论文，激发创造

逐步解毒语言模型

针对语言模型的解毒具有挑战性，本文提出了分解解毒过程、基于无毒提示的连续生成以及使用 Detox-Chain 进行有序连接的方法来实现显著的解毒和生成改进。

Aug, 2023

使用对比上下文学习自定义语言模型回复

利用对照性示例来提高大型语言模型对我们的意图的理解以及生成内容的能力，在合成和真实数据集上的实验证明该方法显著提升了性能。

Jan, 2024

面向开放域创造力和公平性的可控文本生成

本文介绍了一些控制文本生成的方法以增强语言生成模型的创造力和公平性，包括层级生成和约束解码，并应用于故事、诗歌、比喻语言的创意生成，以及减少生成模型的社会偏见。

Sep, 2022

大型语言模型中的用户可控知识融合：平衡创造性和幻觉

本文提出了一种创新的用户可控机制，通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签，综合利用 ROUGE 得分、Sentence-BERT 嵌入和 LLM 的自我评估得分来度量词汇重叠度和语义相似度，用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度，通过广泛的实验验证了该方法的适用性和有效性，强调了增强 LLM 的多功能性同时保持创造性和准确性平衡的潜力。

Jul, 2023

通过死路分析系统性地修正语言模型

本文介绍了一种名为 “修正” 的方法，它利用了最新的强化学习文献中的死路理论，依据文本生成过程中各个阶段生成的文本可能被认为是有毒的概率来处理文本毒性问题，从而提高生成文本的质量和去毒能力。

Feb, 2023

上下文态度控制中的语言模型解毒

提议一种新的方法进行基于上下文的控制以降低语言模型生成的有害语言，将语境的立场纳入考虑，实现生成的立场控制前缀与毒性控制前缀的组合，经实验证明该方法可以有效地学习基于上下文的立场控制策略并保持低的自毒性。

Jan, 2023

一种简单的对比学习目标，以缓解神经文本退化

我们提出了对比记号学习目标，它继承了交叉熵和不可能性训练的优点，同时避免了它们的局限性，通过在语言建模和开放域对话生成任务中的全面实验，我们发现所提出的对比记号目标可以使生成的文本重复性减少，提高了生成质量，达到了文本退化的最新性能水平。

May, 2022

通过毒化逆转实现自我解毒的语言模型

本文提出了一种轻量级方法，通过在预训练语言模型中添加负向指令来诱导模型生成无害内容，同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向，实现语言模型自我脱毒。实验结果表明，我们的方法无需微调或额外组件，可达到与最先进方法相当的性能。

Oct, 2023

Click: 带有序列似然对比学习的可控文本生成

本文提出了一种名为 “Click” 的可控文本生成方法，不需要修改模型架构，利用序列似然的对比损失和新颖的似然排名策略，能够在有毒语言、情感倾向和文本重复等方面相比其他控制型生成模型有更好的性能。

Jun, 2023

通过对比解码增强大型语言模型中的上下文理解能力

大型语言模型在生成文本时常常不能充分整合输入上下文，过度依赖模型参数中的编码先验知识，导致生成的文本存在事实不一致或上下文不忠实的内容。本研究提出了一种新颖的方法，利用对抗性无关信息作为负样本，通过对比解码来增强生成过程中的强大上下文基础。值得注意的是，我们的方法在推理时不需要额外的训练，并通过全面实验证明了其可行性和有效性，提供了实证证据表明其优于现有方法。

May, 2024