Jan, 2024

大规模强化学习用于扩散模型

TL;DR本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。