Quark: 强化逆遗忘控制的文本生成

May, 2022

Quark: Controllable Text Generation with Reinforced Unlearning

Ximing Lu, Sean Welleck, Jack Hessel, Liwei Jiang, Lianhui Qin...

TL;DR在大规模语言模型中，使用 Quark 算法可以优化奖励函数，通过对奖励信号的训练，学习什么是不需要的属性，从而减少生成文本中的毒性、负面情感和重复性，并且在这些方面优于其他基线和增强学习方法。

Abstract

large-scale language models often learn behaviors that are misaligned with user expectations. Generated text may contain offensive or toxic language, contain significant repetition, or be of a different sentiment than desired by the user. We consider the task of unlearning these misali

large-scale language models quark algorithm unlearning misalignments toxicity reinforcement learning

发现论文，激发创造

Nano: 套嵌人机协同的有限数据语言模型控制奖励学习

本研究提出了一种 Nano 算法，使用少量人类反馈，能够生成符合任意（可量化和不可量化）分布的文本，并且表现出较高的样本效率和个性化能力。

Nov, 2022

基于令牌级反馈的强化学习可控文本生成

提出了一种名为 TOLE 的新颖强化学习算法，用于控制大型语言模型的生成，并在单属性和多属性控制任务上取得了优异的性能。

Mar, 2024

隐式不可能性训练：利用强化学习提升神经文本生成

本文提出在语言模型中使用策略梯度强化学习进行微调，以直接优化更好的文本生成，将这种方法应用于最小化生成文本中的重复，并展示了当与 unlikelihood training 相结合时，我们的方法进一步减少了重复而未影响语言模型质量。此外，我们还评估了其他方法来改进训练和解码时间，并使用各种度量标准来比较它们，以达到更好的文本生成输出的控制。

Jan, 2021

奖励增强解码：高效受控文本生成的单向奖励模型

使用奖励增强解码（RAD）的文本生成过程，通过小型单向奖励模型来鼓励语言模型生成具有特定属性的文本，通过实验证明 RAD 在生成非有毒和情绪受控文本方面表现最佳，并且在减少计算开销方面与最先进的方法相媲美。

Oct, 2023

通过直接偏好对齐提升量化大型语言模型的对话能力

大型语言模型（LLMs）的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术如调整指令和通过人类反馈进行强化学习（RLHF）紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法，即量化感知的直接偏好优化（QDPO），通过将量化的 LLMs 与其完整精度的对应物对齐，从而提升对话能力。在使用不同语言的两个经过指令调整的 LLMs 上评估时，QDPO 在提高对话能力方面表现出优越性，相比已确立的后训练量化（PTQ）和知识蒸馏微调技术，标志着在开发高效且有效的对话式 LLMs 方面迈出了重要的一步。

Jul, 2024

基于语篇感知的神经奖励来实现连贯文本生成

本研究使用基于语篇的奖励机制结合强化学习来引导模型生成连贯的长文本，利用神经网络奖励模型来促进跨句子排序，实验结果表明，使用此奖励机制的生成模型比传统的交叉熵或使用常见奖励得分的强化学习训练的模型产生的文本更连贯，更少的重复性。

May, 2018

PQLM -- 多语言去中心化便携式量子语言模型用于隐私保护

本文提出了一种高度可移植的量子语言模型 (PQLM)，它可以在经典计算机上向下游任务轻松传输信息，并演示了在经典计算机上将 PQLM 的词嵌入有效地应用于下游任务。该 PQLM 具有与其经典对应物相当的性能，并为量子预训练语言模型的理论基础奠定了基础。

Oct, 2022

面向目标导向对话系统的量化对话语言模型

使用基于簇的语言模型方法解决面向目标对话系统中的对话学习问题，在 DSTC6 挑战赛中应用于餐厅预订系统；结果表明，该技术在选择正确候选话语方面达到了高准确性，并且优于基于神经网络的其他现有方法。

Dec, 2018

基于 Transformer 的语言模型降低毒性的奖励建模

本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify，通过引入新的奖励机制，它能够有效地检测出有毒的内容，并减轻与社会身份相关的无意识偏见。实验表明，Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法，并且生成内容不太容易存在社会身份上的偏见。

Feb, 2022

非极大化训练的神经文本生成

提出一种基于非似然训练的神经文本生成方法，有效降低生成文本的重复性，将标准束搜索的输出性能提升至目前最优，并提供了一种强有力的替代神经文本生成中已有技术的方法。

Aug, 2019