消除否定性：通过分布偏好优化实现无需人工正例样本的对齐

Mar, 2024

消除否定性：通过分布偏好优化实现无需人工正例样本的对齐

Negating Negatives: Alignment without Human Positive Samples via Distributional Dispreference Optimization

Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie...

TL;DR通过利用人工标注的负样本，提出了一种基于分布差异优化的方法来使大型语言模型朝向人类偏好对齐，以减少有害信息的生成。实验证明该方法在生成质量、有害信息数量和训练稳定性方面均优于最新基线模型。

Abstract

large language models (LLMs) have revolutionized the role of AI, yet also pose potential risks of propagating unethical content. alignment technologies have been introduced to steer LLMs towards human preference,

large language models alignment technologies distributional dispreference optimization negative samples harmful information

发现论文，激发创造

对抗性偏好优化

人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Nov, 2023

使用反事实数据处理器调整大型语言模型

探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Jan, 2024

广泛的自对比使得无需反馈的语言模型对准

通过利用自动生成的负例，自我对比是一种无需依赖人类反馈的大型语言模型对齐方法，仅通过有监督的微调目标，利用语言模型本身生成大量多样化的候选，并根据文本相似性使用预训练的嵌入模型筛选多个负例，实验证明在此设置下，仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况，通过对三个数据集的直接偏好优化实验表明，自我对比可以始终显著优于有监督微调和标准偏好优化训练，当自生成负例的数量增加时，自我对比的性能也在不断提高。

Mar, 2024

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Mar, 2024

辩证统一：解决 LLM 的 3H 与安全威胁的张力

利用人工智能反馈，提出了一种新颖的方案：辩证对齐（Dialectical Alignment）模型，用于调整大语言模型在不同外部证据冲突下的内部状态，以抵御被污染的数据攻击，提高系统的安全性。

Mar, 2024

直接通过自我奖励对比提示精制的大型语言模型对齐

通过对比提示对生成的偏好数据进行评估，并计算自奖励分数，最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型，实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。

Feb, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

ULMA：统一语言模型对齐与演示与逐点人类偏好

发展了一种称为点对点 DPO 的偏好学习方法，该方法填补了现有点对点优先学习方法在信息损失和失败方面的不足，并提供了同时处理人类演示和点对点优先数据的统一框架。

Dec, 2023

大规模语言模型的潜在距离指导对齐训练

使用无需标注的注解方法，Latent Distance Guided Alignment Training (LD-Align) 利用生成的潜在空间对大型语言模型进行对齐训练，通过潜在空间中样本对之间的距离来引导对齐训练。经过广泛实验和评估，我们的方法在实现显著对齐方面表现出很高的效果。

Apr, 2024

具有可证明噪声容忍性的鲁棒偏好优化

ROPO 是第一个提供噪声容忍保证的偏好对齐方法，通过动态分配激进梯度权重给具有高标签不确定性的回应对，有效地抑制噪声样本的梯度，保证了期望风险具有相同的梯度方向，实验证明 ROPO 显著优于现有的基于排名的方法。

Apr, 2024