直接通过自我奖励对比提示精制的大型语言模型对齐

Feb, 2024

直接通过自我奖励对比提示精制的大型语言模型对齐

Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation

Aiwei Liu, Haoping Bai, Zhiyun Lu, Xiang Kong, Simon Wang...

TL;DR通过对比提示对生成的偏好数据进行评估，并计算自奖励分数，最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型，实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。

Abstract

Aligning large language models (LLMs) with human expectations without human-annotated preference data is an important problem. In this paper, we propose a method to evaluate the →

large language models human-annotated preference data contrastive prompt pairs response preference automatic alignment

发现论文，激发创造

使用 DPO 隐式奖励进行自助式语言模型训练

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

RLCD: 强化学习从对比教育中提炼的语言模型对齐

我们提出了一种无需人工反馈的方法，从对比蒸馏中强化学习（RLCD）来使语言模型遵循自然语言规则。RLCD 使用模拟的偏好对来训练一个偏好模型，其中包含通过对比正面和负面提示生成的高质量和低质量例子。然后使用偏好模型通过强化学习来改善基础未对齐的语言模型。实证结果表明，RLCD 在三个不同的对齐任务（无害性、有帮助性和故事大纲生成）以及 7B 和 30B 模型规模的偏好数据模拟上优于 RLAIF（Bai 等，2022b）和上下文蒸馏（Huang 等，2022）对照组。

Jul, 2023

使用直接偏好头进行语言模型的推理时间对齐

通过使用强化学习和直接偏好头的 fine-tuning 框架，将预训练语言模型与人类偏好信号相结合，实现对模型输出的控制，并在各项评估中超越传统的有监督和直接偏好优化方法。

May, 2024

使用反事实数据处理器调整大型语言模型

探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Jan, 2024

广泛的自对比使得无需反馈的语言模型对准

通过利用自动生成的负例，自我对比是一种无需依赖人类反馈的大型语言模型对齐方法，仅通过有监督的微调目标，利用语言模型本身生成大量多样化的候选，并根据文本相似性使用预训练的嵌入模型筛选多个负例，实验证明在此设置下，仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况，通过对三个数据集的直接偏好优化实验表明，自我对比可以始终显著优于有监督微调和标准偏好优化训练，当自生成负例的数量增加时，自我对比的性能也在不断提高。

Mar, 2024

多目标奖励的 LLMs 多元用户偏好算术控制：方向偏好对齐

使用方向偏好对大规模语言模型进行细粒度控制，并结合多目标奖励建模，以实现对用户偏好的多样化表示，从而在保持竞争性性能的同时提供直观的 LLM 生成控制。

Feb, 2024

相对偏好优化：通过对相同和不同提示的对比响应来增强 LLM 对齐

通过对比加权机制，Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法，提高了模型对用户偏好的理解能力，并在训练过程中提高了适应性。

Feb, 2024

通过分布偏好奖励建模对齐群体反馈

分布偏好奖励模型（DPRM）是一个简单而有效的框架，通过将最大语言模型（LLM）与多样化的人类偏好对齐，以提高对人群偏好的代表性。

Feb, 2024

大规模语言模型的潜在距离指导对齐训练

使用无需标注的注解方法，Latent Distance Guided Alignment Training (LD-Align) 利用生成的潜在空间对大型语言模型进行对齐训练，通过潜在空间中样本对之间的距离来引导对齐训练。经过广泛实验和评估，我们的方法在实现显著对齐方面表现出很高的效果。

Apr, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024