May, 2023

离线强化学习的高效扩散策略

TL;DR该论文提出了一种有效的扩散策略(EDP),用于在线学习优化策略,可以解决传统 Diffusion-QL 的训练效率低和与基于最大似然的 RL 算法不兼容的问题。研究表明,EDP 可将扩散策略的训练时间缩短至 5 小时,在 D4RL 基准测试中实现了新的最先进结果。