Jun, 2024

DiffPoGAN:离线强化学习中基于生成对抗网络的扩散策略

TL;DR离线强化学习方法 DiffPoGAN 通过离线数据集学习最优策略,利用生成对抗网络生成多样的动作分布,使用最大似然估计方法生成近似行为策略分布的数据,并引入基于鉴别器输出的额外正则化项来有效约束策略探索,实验证明在离线强化学习领域超过了其他方法。