Nov, 2022

双生成器离线强化学习

TL;DR本文介绍了一种名为 DASCO 的新方法,用于解决离线强化学习 (GAN) 中存在的矛盾目标问题,该方法采用了双生成器,其中一个最大化回报,另一个捕捉不属于行为策略的数据分布的 “剩余部分”,这两者的混合物接近于行为策略,并近似支持约束,通过在子优数据上进行基准测试,表明 DASCO 明显优于之前的方法,实现了分布约束。