用表示编辑来对齐大型语言模型：一个控制的观点

Jun, 2024

用表示编辑来对齐大型语言模型：一个控制的观点

Aligning Large Language Models with Representation Editing: A Control Perspective

Lingkai Kong, Haorui Wang, Wenhao Mu, Yuanqi Du, Yuchen Zhuang...

TL;DR通过表示编辑的方法，提出了一种通过在预训练的自回归大型语言模型上引入外部控制信号，以实现特定目标对齐的方法，实验证明该方法在测试时间上优于现有的测试时间对齐技术，并且相对于微调方法需要较少的资源。

Abstract

Aligning large language models (LLMs) with human objectives is crucial for real-world applications. However, fine-tuning LLMs for alignment often suffers from unstable training and requires substantial computing

large language models alignment representation editing test-time alignment techniques fine-tuning methods

发现论文，激发创造

大型语言模型的可控推荐

通过引入监督学习任务和基于强化学习的对齐过程，本研究明显提升了大型语言模型在推荐系统中遵循指示并保持高精度性能的能力。

Mar, 2024

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

大型语言模型的教学对齐

介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs)，它作为脚手架工具将复杂问题分解为可管理的子问题，并通过反馈和提示引导学生寻找最终答案。研究表明，通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越，同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力，为这些模型在教育环境中的发展提供了有价值的见解。

Feb, 2024

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

DeAL: 大型语言模型解码时间对齐

提出了一种名为 DeAL 的框架，通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标，弥补模型训练中的残缺缺陷，并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。

Feb, 2024

参数高效调整助于语言模型对齐

对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐，但存在某些局限性。为了克服这些限制，本文提出了一种参数高效调优的对齐方法（MEET），通过改进控制标记的质量，在两个知名数据集上相比之前的方法明显提高了可控生成的质量。

Oct, 2023

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

嵌入对齐的语言模型

我们提出了一种新颖的方法，通过在潜在嵌入空间中定义目标，对大型语言模型（LLMs）进行训练。我们的方法利用强化学习（RL），将预训练的 LLM 作为环境。我们训练的嵌入对齐引导语言（EAGLE）代理程序通过迭代地引导 LLM 的生成，使其指向潜在嵌入空间的最佳区域，相对于某些预定义的准则。我们使用 MovieLens 25M 数据集展示了 EAGLE 代理程序的有效性，以满足潜在用户需求的内容间隙。我们还展示了使用状态相关动作集的最佳设计来提高 EAGLE 效率的好处。我们的工作为使用 LLMs 进行受控和基于实际的文本生成铺平了道路，确保与领域特定知识和数据表示的一致性。

May, 2024