BriefGPT.xyz
Ask
alpha
关键词
diffusion-dpo
搜索结果 - 2
步骤感知的偏好优化:在每个步骤中将偏好与去噪性能对齐
我们提出了一种 Step-aware Preference Optimization (SPO) 的方法,通过独立评估和调整每个步骤的去噪性能,在对生成图像进行偏好调整时改进了 Diffusion-DPO 方法的训练效率和图像质量。
PDF
a month ago
直接偏好优化的扩散模型对齐
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模
→
PDF
8 months ago
Prev
Next