将后缀梯度压缩为前缀控制器以实现 LLM 行为的自我控制

Jun, 2024

将后缀梯度压缩为前缀控制器以实现 LLM 行为的自我控制

Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller

Min Cai, Yuchen Zhang, Shichang Zhang, Fan Yin, Difan Zou...

TL;DR我们提出了 Self-Control，一种利用后缀梯度控制大型语言模型行为的新方法，无需明确的人工注释。通过给定后缀字符串表示的指导方针和模型对遵守度的自我评估，Self-Control 计算模型隐藏状态的自我判断的梯度，直接影响自回归生成过程朝着所期望的行为方向。为了提高效率，我们引入了 Self-Control_{prefix}，这是一个紧凑的模块，将从后缀梯度中学得的表示封装到 Prefix Controller 中，以促进各种大型语言模型行为的推理时控制。我们的实验证明了 Self-Control 在多个领域的有效性，包括情感调节，确保无害性和增强复杂推理。特别是，Self-Control_{prefix} 实现了即插即用的控制，并能够同时控制多个属性，改进模型输出而不改变模型参数或增加推理时的成本。

Abstract

We propose self-control, a novel method utilizing suffix gradients to control the behavior of large language models (LLMs) without explici

self-control large language models suffix gradients prefix controller inference-time control

发现论文，激发创造

具有对比前缀的可控自然语言生成

提出了一种新颖的轻量级的 GPT2 生成框架，该框架利用一组小的属性特定向量，称为前缀，来控制自然语言生成，其中前缀使用多方面控制的监督方法和无监督方法进行训练，实验结果表明，我们的方法可以引导生成达到期望的特性，同时保持高水平的语言质量。

Feb, 2022

语言模型的可控解码

我们提出了一种控制解码（CD）的创新离策略强化学习方法，以控制语言模型的自回归生成，以实现高回报结果。CD 通过一种用于奖励的值函数（我们称之为前缀评分器）解决了一个离策略强化学习问题，该前缀评分器在推断时间用于引导生成以实现更高的回报结果。我们的实证研究表明，在 Reddit 会话语料库上，CD 作为一种控制机制非常有效。我们还展示了 CD 的设计模块化性，使其能够有效解决一个无需额外复杂性的多目标强化学习问题。最后，我们展示了 CD 可以以一种创新的分块方式在推断时间应用，无需进行任何训练时间的更改，从根本上填补了流行的最优 $K$ 策略和标记级强化学习之间的差距。这使得 CD 成为一种有望实现语言模型的对齐的方法。

Oct, 2023

大型语言模型的适应性逻辑控制

通过引入适应性框架 Ctrl-G，该研究提出了一种可实现对大型语言模型的可控生成的方法，并将其应用于交互文本编辑和有限状态自动机表示的逻辑约束，结果显示 Ctrl-G 在人类评估中相比于 GPT4 以及 GPT3.5 取得了 30% 以上的满意率提升，并在标准基准测试中超越了中型语言模型。此外，该研究还进行了 Grade School Math 基准测试作为概念验证，展示了 Ctrl-G 在辅助大型语言模型推理方面的潜力。

Jun, 2024

通过迭代自我反思，LLM 可以学会自我约束

为了安全部署，大型语言模型（LLMs）必须能够根据知识水平和特定主题的不确定性动态调整其行为。本文介绍了一种自我控制的方法来教导模型在自信的情况下才产生回答，并使用 ReSearch 算法不断改进模型，从而实现知识的有选择性表达。

May, 2024

CTRL: 条件可控的 Transformer 语言模型生成器

发布了一个 1.63 亿参数的条件变换器语言模型 CTRL，它被训练用于控制由结构派生而来的控制代码来控制风格、内容和任务特定行为，从而提供更明确的文本生成控制。

Sep, 2019

具备自控制内存系统的大规模语言模型释放无限长度输入容量

本文提出了 Self-Controlled Memory 系统，包括语言模型代理、记忆流和记忆控制器三个核心模块，可以扩展 Large-scale Language Models 的输入容量，使其能够处理超长文本，而且实验结果表明该系统能够使非优化多轮对话的模型达到与 ChatGPT 相当的效果，并在超长文本摘要或长期对话方面优于 ChatGPT。

Apr, 2023

FreeCtrl: 使用前馈层构建控制中心进行无学习的可控文本生成

提出了一个名为 FreeCtrl 的无需学习的方法，该方法通过动态调整选择的前馈神经网络向量的权重来控制大型语言模型的输出，实现对生成内容的属性关键词的输出概率的控制，从而解决了学习成本和模型性能之间的困境。

Jun, 2024

评估利用 LLMs 进行文本生成中属性强度的平滑控制

大语言模型（LLM）的平滑控制在文本生成中具有重要意义，本论文提出了评估生成文本属性强度范围、校准度和一致性以及其与预期语境的相关性的度量指标，通过引入 Elo 评级系统和 GPT4 的评估方法来量化属性强度和上下文相关性，并研究了两种无需训练的实现语言模型平滑控制的方法：使用语义转换器进行提示和修改内部模型表示。

Jun, 2024

外向还是内向？控制你的大型语言模型的个性

大型语言模型 (Large language models, LLMs) 的个性控制是一个关键研究领域，本研究通过综合调查发现，使用 PISF 策略对 LLMs 进行个性控制是最有效和最稳健的方法，具有高效性、高成功率和高鲁棒性。即使在相反个性提示下，由 PISF 控制的 LLMs 仍然表现出稳定且可靠的个性。

Jun, 2024

ControlLM: 为语言模型打造多样化个性

利用 ControlLM 控制自然语言处理模型的个性特征，以满足不同类型任务需求，并通过调整模型行为表现出多样的人格特征，提供了改善推理和问题回答的途径。

Feb, 2024