BriefGPT.xyz
Ask
alpha
关键词
dual generator
搜索结果 - 1
双生成器离线强化学习
本文介绍了一种名为 DASCO 的新方法,用于解决离线强化学习 (GAN) 中存在的矛盾目标问题,该方法采用了双生成器,其中一个最大化回报,另一个捕捉不属于行为策略的数据分布的 “剩余部分”,这两者的混合物接近于行为策略,并近似支持约束,通
→
PDF
2 years ago
Prev
Next