BriefGPT.xyz
Ask
alpha
关键词
direct reward fine-tuning
搜索结果 - 1
直接在可微奖励上微调扩散模型
通过直接奖励微调方法(DRaFT)对扩散模型进行微调,以最大化可微分奖励函数,实现了强化学习方法无法超越的强大性能,通过在采样过程中反向传播奖励梯度,并且提出了更高效的 DRaFT 变体:DRaFT-K 和 DRaFT-LV。同时,通过与之
→
PDF
9 months ago
Prev
Next