BriefGPT.xyz
Ask
alpha
关键词
synthetic experience
搜索结果 - 1
政策引导扩散
我们提出了一种使用扩散模型生成基于行为分布的整个轨迹,并通过目标策略引导将合成经验转移到更贴近目标策略的方法,以此代替真实数据进行离线强化学习,并在各种标准离线强化学习算法和环境中取得显著的性能改善。
PDF
3 months ago
Prev
Next