万灵草: LLMs 的 Pareto 对齐通过偏好适应

Feb, 2024

万灵草: LLMs 的 Pareto 对齐通过偏好适应

Panacea: Pareto Alignment via Preference Adaptation for LLMs

Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Qingfu Zhang...

TL;DRPanacea 是一种创新的方法，将对齐视为多维偏好优化问题，使用奇异值分解（SVD）的低秩适应来引导模型行为，从而无需进一步调整，实现了有效和高效地对齐模型以适应多样化和复杂的人类偏好。

Abstract

Current methods for large language model alignment typically use scalar human preference labels. However, this convention tends to oversimplify the multi-dimensional and heterogeneous nature of human preferences, leading to reduced expressivity and even misalignment. This paper present

large language model alignment multi-dimensional preference optimization panacea singular value decomposition pareto-optimal

发现论文，激发创造

PAL：异构偏好学习的多元对齐框架

大规模基础模型预训练在原始网络数据上，无法直接部署，需要经过广泛的与人类偏好的协调。本文提出 PAL 框架，将人类偏好的多样性融入到预训练策略中，通过理想点模型和混合建模方法，捕捉到群体偏好的多样性，同时学习一种常用的偏好潜空间，能够适应新用户的少样本泛化。该方法利用基础模型的倒数第二层表示和简单的 MLP 层，学习与现有大型先进奖励模型相当的奖励函数，极大提升了奖励建模的效率。实验证明，PAL 在多个数据集上与基准模型相比，能够达到竞争性的奖励模型准确性，并揭示了当前偏好数据集的不足，呼吁采用更细致的数据收集方法。

Jun, 2024

CURATRON：大型语言模型鲁棒对齐的完备偏好数据

通过偏好学习与重新校准数值来解决大型语言模型与人类价值观对齐的挑战，特别关注在偏好数据集中处理不完整和损坏数据的问题，并提出了一种鲁棒且完全重新校准数据集数值的新方法，采用保证多项式时间的排名算法，主要针对经典的 Bradley-Terry-Luce 模型及其某些推广模型，通过实验证实了算法在处理一般和大型语言模型偏好数据集中的对抗噪声和未观察比较方面的鲁棒性。

Mar, 2024

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

通过系统消息概括与数千个偏好进行对齐

用户指定系统信息并通过训练大型语言模型与用户意图更好地对齐的新方法，通过多方面的数据集和用户指令训练模型，该模型在各项测试中表现优于其他大型语言模型。

May, 2024

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

对抗性偏好优化

人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Nov, 2023

一种基于偏好的增强翻译的范式与大型语言模型

通过基于 Plackett-Luce 模型的基于偏好的方法，成功突破了以模仿为基础的 SFT 的平台效应，从而实现了在各种 LLM 和测试环境中的性能优势。

Apr, 2024

比较坏苹果和好橙子：通过联合偏好优化对齐大型语言模型

通过联合指导 - 回应偏好数据进行大型语言模型训练，使用 DOVE 目标函数优化，可以显著提高 LLM 的对齐效果，并在总结和开放式对话数据集上分别提高 5.2% 和 3.3% 胜率。

Mar, 2024

自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战，在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC，它通过自我对战来实现，灵感来自离线强化学习领域的平均悲观技术，将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析，并展示了其具有竞争性的实证性能。

Jun, 2024