BriefGPT.xyz
Ask
alpha
关键词
cpql
搜索结果 - 1
使用一致性策略提升连续控制
通过一步将噪声转化为动作,我们提出了一种名为 CPQL 的新型时间效率方法,解决了扩散模型在更新时的时间效率和准确性指导方面的问题,从而实现了脱机强化学习的策略改进,并可以无缝地扩展到在线强化学习任务中,最终实验结果表明,CPQL 在 11
→
PDF
9 months ago
Prev
Next