Mar, 2025

基于偏好的离散扩散模型对齐:D3PO

TL;DR本研究解决了在缺乏明确奖励函数的情况下,将离散扩散模型与特定任务偏好对齐的挑战。我们提出的D3PO方法通过新颖的损失函数,利用偏好数据直接优化生成过程,同时保持对参考分布的忠实性。研究表明,D3PO在不需要显式奖励模型的情况下,能够有效地对齐模型输出与偏好,提供了一种比强化学习方法更实用的替代方案。