May, 2023

离线强化学习的高效扩散策略

TL;DR该论文提出了一种有效的扩散策略(EDP),用于在线学习优化策略,可以解决传统Diffusion-QL的训练效率低和与基于最大似然的RL算法不兼容的问题。研究表明,EDP可将扩散策略的训练时间缩短至5小时,在D4RL基准测试中实现了新的最先进结果。