MetaAligner: 通用多目标语言模型对齐的条件弱到强校正

Mar, 2024

MetaAligner: 通用多目标语言模型对齐的条件弱到强校正

MetaAligner: Conditional Weak-to-Strong Correction for Generalizable Multi-Objective Alignment of Language Models

Kailai Yang, Zhiwei Liu, Qianqian Xie, Tianlin Zhang, Nirui Song...

TL;DR大型语言模型最新的研究进展着重于通过多目标偏好对齐来解决异质人类期望和价值的问题。然而，现有方法对策略模型具有参数黏着性，导致两个主要限制：（1）对每个新的目标模型，其对齐算法的高成本重复使用；（2）它们不能扩展到未知的目标，因为其静态对齐目标。在这项工作中，我们提出了元目标对齐器（MetaAligner），这是一种执行从弱响应到强响应的有条件强化修正的模型。MetaAligner 是第一个对策略不依赖和通用化的多目标偏好对齐方法，通过将参数更新与政策模型分离，实现了即插即用的对齐，并通过上下文学习实现了对未知目标的零样本偏好对齐。实验结果表明，MetaAligner 在 11 个策略模型上实现了显著且平衡的多目标对齐改进，其中有多达 63 倍的参数，并且比以往的对齐方法需要少达 22.27 倍的计算资源。该模型还准确地与未知目标对齐，标志着通用多目标偏好对齐的第一步。

Abstract

Recent advancements in large language models (LLMs) aim to tackle heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are parameter-adherent to the policy model, leading to two key limitations: (1) the high-cost repetition of

large language models multi-objective preference alignment meta-objective aligner policy models unseen objectives

发现论文，激发创造

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式 Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过 Aligner 的监督信号进行微调，进而应用于不同的开源和 API-based 模型。此外，Aligner 提供了很大的性能提升，如对 11 种不同的 LLMs 平均提升 18％的有用性和 23％的无害性（GPT-4 提升 26.9％和 17.5％），对 Llama2-70B 使用 Aligner-7B 的监督进行微调，可以提高 Llama2 的有用性 8.2％和无害性 61.6％。

Feb, 2024

提升弱到强泛化性能的可靠性感知对齐

通过提高弱监督信号的可靠性，我们的方法有效地识别了弱标签的质量，并显著提高了弱到强泛化能力，降低了噪声监督的误差传播，增强了大型语言模型的准确性和可靠性。

Jun, 2024

超（表）对齐：在弱到强的泛化中，强模型可能欺骗弱模型

通过使用具有弱监督的模型对强大模型进行监督，最近的研究初步探讨了超级对齐问题。实验发现，弱监督的强学生在对齐目标上持续胜过弱教师，引发了弱到强泛化现象。然而，我们担心在这种令人期待的现象背后，是否存在弱到强欺骗问题，即强大模型可能通过在弱模型已知领域中表现得很好，而在弱模型不知道的情况下产生不对齐的行为进行欺骗。我们在特定但现实的多目标对齐情况下以及奖励建模任务和偏好优化场景上的实验证明：（1）存在弱到强的欺骗现象；（2）随着弱模型和强模型能力差距的增加，欺骗现象可能会加剧。我们还讨论了潜在的解决方案，并发现通过中间模型的引导可以在一定程度上减轻欺骗问题。我们的工作强调了对超级对齐的真实可靠性更加紧迫的关注。

Jun, 2024

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024

机器翻译中鲁棒性适应的软对齐目标

这项研究介绍了建立在预测令牌语义相似度的新型训练目标，通过避免单个正确预测的假设，可以减轻域自适应中的灾难性遗忘，同时保持适应质量，并且计算成本几乎可以忽略不计。

Nov, 2022

明确对齐是否能够稳定提高多语言编码器性能？

本文提出了一种新的对比对齐目标函数，主要应用于 OPUS 数据集，分析了单语和多语种上的效果，证明此方法优于以前的工作，但整体上，这些方法无法通过更强大的评估框架来提高性能，而更好的基础模型可以获得更好的性能。

Oct, 2020

群体偏好优化：大型语言模型的少样本对齐

利用少量数据实现群体偏好优化的大型语言模型对齐框架，通过使用独立的 Transformer 模块预测群体对语言模型生成结果的偏好，并通过元学习训练多个群体的偏好，从而在大规模语言模型上实现更准确的对齐效果，同时减少了群体特定偏好、训练和推理计算资源的需求。

Oct, 2023

弱到强的搜索：通过在小型语言模型上进行搜索来对齐大型语言模型

大规模语言模型通过使用弱到强的搜索方法进行调整，以增强模型的效果并提高模型的对齐能力。

May, 2024

视觉超对齐：视觉基础模型的弱到强泛化

利用弱模型监督强模型以提升性能，采用新颖的自适应可调整损失函数进行弱强监督的综合实验，超越了基准性能和使用整个数据集进行微调的结果，展示了弱强泛化在提升视觉模型性能方面的重大潜力。

Feb, 2024

跨模态泛化：通过元对齐学习低资源模态

本研究旨在提出一种算法用于跨模态泛化，通过使用强弱配对的跨模态数据对表示空间进行元对齐的新方法，实现在不同模态下快速完成新任务的训练。该算法被运用于三个分类任务，即文本到图像，图像到音频和文本到语音，即使目标模态只有少量（1-10）标记样本和存在噪声标签，该算法的表现也非常强。

Dec, 2020