Apr, 2024

基于扩散模型的像素级强化学习:从丰富反馈中进行强化学习

TL;DR扩展了基于人类反馈训练的静态扩散模型生成算法,提出了基于像素的策略优化算法 (PXPO),通过针对每个像素提供更细致的奖励给模型。