BriefGPT.xyz
Ask
alpha
关键词
efficient diffusion policy
搜索结果 - 1
离线强化学习的高效扩散策略
该论文提出了一种有效的扩散策略(EDP),用于在线学习优化策略,可以解决传统 Diffusion-QL 的训练效率低和与基于最大似然的 RL 算法不兼容的问题。研究表明,EDP 可将扩散策略的训练时间缩短至 5 小时,在 D4RL 基准测试
→
PDF
a year ago
Prev
Next