CURATRON：大型语言模型鲁棒对齐的完备偏好数据

Mar, 2024

CURATRON：大型语言模型鲁棒对齐的完备偏好数据

CURATRON: Complete Robust Preference Data for Robust Alignment of Large Language Models

Son The Nguyen, Niranjan Uma Naresh, Theja Tulabandhula

TL;DR通过偏好学习与重新校准数值来解决大型语言模型与人类价值观对齐的挑战，特别关注在偏好数据集中处理不完整和损坏数据的问题，并提出了一种鲁棒且完全重新校准数据集数值的新方法，采用保证多项式时间的排名算法，主要针对经典的 Bradley-Terry-Luce 模型及其某些推广模型，通过实验证实了算法在处理一般和大型语言模型偏好数据集中的对抗噪声和未观察比较方面的鲁棒性。

Abstract

This paper addresses the challenges of aligning large language models (LLMs) with human values via preference learning (PL), with a focus on the issues of incomplete and corrupted data in preference datasets. We

large language models preference learning recalibrating values ranking algorithm adversarial noise

发现论文，激发创造

具有可证明噪声容忍性的鲁棒偏好优化

ROPO 是第一个提供噪声容忍保证的偏好对齐方法，通过动态分配激进梯度权重给具有高标签不确定性的回应对，有效地抑制噪声样本的梯度，保证了期望风险具有相同的梯度方向，实验证明 ROPO 显著优于现有的基于排名的方法。

Apr, 2024

人体对齐的偏好排名优化

提出了一种名为 Preference Ranking Optimization（PRO）的新型策略，旨在通过将人类偏好排名直接应用于语言模型生成的响应的概率排名，实现语言模型（LLMs）的与人类价值观的对齐。研究结果表明，PRO 优于现有的对齐算法，并通过基于自动化、奖励、GPT-4 和人类评估的实验来达到与 ChatGPT 和人类响应相当的结果。此外，作者还证明了长、多样化、高质量的偏好排名序列可以稳定提高将 LLMs 与人对其的对齐性能。

Jun, 2023

基于预测的大型语言模型排序

使用统计框架，我们可以以一定的概率保证，通过人类和强大的大型语言模型的成对比较排名结果覆盖了人类偏好的真实排名。

Feb, 2024

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

PAL：异构偏好学习的多元对齐框架

大规模基础模型预训练在原始网络数据上，无法直接部署，需要经过广泛的与人类偏好的协调。本文提出 PAL 框架，将人类偏好的多样性融入到预训练策略中，通过理想点模型和混合建模方法，捕捉到群体偏好的多样性，同时学习一种常用的偏好潜空间，能够适应新用户的少样本泛化。该方法利用基础模型的倒数第二层表示和简单的 MLP 层，学习与现有大型先进奖励模型相当的奖励函数，极大提升了奖励建模的效率。实验证明，PAL 在多个数据集上与基准模型相比，能够达到竞争性的奖励模型准确性，并揭示了当前偏好数据集的不足，呼吁采用更细致的数据收集方法。

Jun, 2024

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Mar, 2024

优化语言模型以符合人类偏好的问题的因果推断

对大型语言模型的优化进行了初步探索，为了使模型正确学习文本和结果之间的关系，提出了因果语言优化问题的形式化，开发了解决该问题的方法 —— 因果偏好优化（CPO），并扩展了双重稳健 CPO（DR-CPO），最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。

Feb, 2024