直接通过自我奖励对比提示精制的大型语言模型对齐
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
Jun, 2024
我们提出了一种无需人工反馈的方法,从对比蒸馏中强化学习(RLCD)来使语言模型遵循自然语言规则。RLCD 使用模拟的偏好对来训练一个偏好模型,其中包含通过对比正面和负面提示生成的高质量和低质量例子。然后使用偏好模型通过强化学习来改善基础未对齐的语言模型。实证结果表明,RLCD 在三个不同的对齐任务(无害性、有帮助性和故事大纲生成)以及 7B 和 30B 模型规模的偏好数据模拟上优于 RLAIF(Bai 等,2022b)和上下文蒸馏(Huang 等,2022)对照组。
Jul, 2023
通过使用强化学习和直接偏好头的 fine-tuning 框架,将预训练语言模型与人类偏好信号相结合,实现对模型输出的控制,并在各项评估中超越传统的有监督和直接偏好优化方法。
May, 2024
探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法,该方法有效地注入了良好的行为并减轻了不理想的情况,鼓励模型忽略不合适的指令,从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。
Jan, 2024
通过利用自动生成的负例,自我对比是一种无需依赖人类反馈的大型语言模型对齐方法,仅通过有监督的微调目标,利用语言模型本身生成大量多样化的候选,并根据文本相似性使用预训练的嵌入模型筛选多个负例,实验证明在此设置下,仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况,通过对三个数据集的直接偏好优化实验表明,自我对比可以始终显著优于有监督微调和标准偏好优化训练,当自生成负例的数量增加时,自我对比的性能也在不断提高。
Mar, 2024
使用方向偏好对大规模语言模型进行细粒度控制,并结合多目标奖励建模,以实现对用户偏好的多样化表示,从而在保持竞争性性能的同时提供直观的 LLM 生成控制。
Feb, 2024
通过对比加权机制,Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法,提高了模型对用户偏好的理解能力,并在训练过程中提高了适应性。
Feb, 2024
使用无需标注的注解方法,Latent Distance Guided Alignment Training (LD-Align) 利用生成的潜在空间对大型语言模型进行对齐训练,通过潜在空间中样本对之间的距离来引导对齐训练。经过广泛实验和评估,我们的方法在实现显著对齐方面表现出很高的效果。
Apr, 2024
通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。
May, 2024