IterAlign: 大型语言模型的迭代式结构对齐

ACLMar, 2024

IterAlign: 大型语言模型的迭代式结构对齐

IterAlign: Iterative Constitutional Alignment of Large Language Models

Xiusi Chen, Hongzhi Wen, Sreyashi Nag, Chen Luo, Qingyu Yin...

TL;DR使用迭代自对准框架 IterAlign，通过红队测试自动发现和纠正大型语言模型的弱点，提出了一个数据驱动的基于宪法的自对准方法，能够显著改善大型语言模型的对齐性能。

Abstract

With the rapid development of large language models (LLMs), aligning LLMs with human values and societal norms to ensure their reliability and safety has become crucial. →

large language models aligning reinforcement learning constitutional ai constitution discovery

发现论文，激发创造

集体宪政 AI：将语言模型与公众输入对齐

使用 Collective Constitutional AI 方法，通过公众参与培训和评估，创建了第一个经集体数据微调的语言模型，与基线模型相比，在九个社会维度上展现出更低的偏见，同时在语言、数学和有益 - 无害评估上表现相当的性能。

Jun, 2024

使用人类反馈的 AI 对准研究中的方法论思考

本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战，特别是针对训练总结文本的 LLMs。具体地，我们关注的是收集可靠人类反馈的方法，以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。

Dec, 2022

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Jan, 2024

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式 Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过 Aligner 的监督信号进行微调，进而应用于不同的开源和 API-based 模型。此外，Aligner 提供了很大的性能提升，如对 11 种不同的 LLMs 平均提升 18％的有用性和 23％的无害性（GPT-4 提升 26.9％和 17.5％），对 Llama2-70B 使用 Aligner-7B 的监督进行微调，可以提高 Llama2 的有用性 8.2％和无害性 61.6％。

Feb, 2024

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024

无人工指导的有限样本 LLM 自校准

我们研究了如何在样本有限的情况下，通过使用上下文学习示例和迭代调整算法，自动对齐大型语言模型，以实现几乎不需要人工监督的自我泛化对齐能力。

Jan, 2024

基于平台的对齐过程

引入 Aligned 平台，旨在实现全球治理、对齐前沿模型和超级智能。通过建立一个可信赖且面向公众的安全框架：宪法委员会，该平台在 680 个参与者的初步测试中获得了 30 个准则宪法，并获得了 93% 的整体支持。证明该平台自然地扩展，从社区中赢得信任和乐趣。我们邀请其他 AI 实验室和团队接入 Aligned 生态系统。

Nov, 2023

道义使命：对大型语言模型持续超对齐的需求

探讨实现 AI 系统中的终身超对齐所面临的挑战，特别是大型语言模型（LLMs）；超对齐是一个理论框架，旨在确保超级智能 AI 系统按照人类的价值观和目标行动；我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变，因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性；通过分析两个不同的例子，我们阐明 LLM 面对训练数据的限制，无法与当代人类价值观和情景相契合；最后，本文探讨了解决和可能减轻这种对齐差异的潜在策略，提出了追求更适应和响应性的 AI 系统的路径。

Mar, 2024

CycleAlign：迭代从黑盒模型到白盒模型的蒸馏，用于更好的人类对齐

通过 CycleAlign 框架，将白盒模型和黑盒模型在低资源情况下有效对齐，通过多次迭代相互作用，动态更新上下文演示，提高黑盒模型的偏好排序能力，实现与人类价值的最先进对齐性能。

Oct, 2023

InferAligner: 通过跨模型指导实现无害性的推理时间对齐

通过 InferAligner 方法，在训练领域特定模型以及多模态的大语言模型时，有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR)，同时保持了下游任务性能的基本不变。

Jan, 2024