BriefGPT.xyz
Ask
alpha
关键词
diffpogan
搜索结果 - 1
DiffPoGAN:离线强化学习中基于生成对抗网络的扩散策略
离线强化学习方法 DiffPoGAN 通过离线数据集学习最优策略,利用生成对抗网络生成多样的动作分布,使用最大似然估计方法生成近似行为策略分布的数据,并引入基于鉴别器输出的额外正则化项来有效约束策略探索,实验证明在离线强化学习领域超过了其他
→
PDF
23 days ago
Prev
Next