BriefGPT.xyz
Ask
alpha
关键词
adversarially trained actor critic
搜索结果 - 1
基于对抗训练的离线强化学习中的演员 - 评论家算法
本文提出 Adversarially Trained Actor Critic (ATAC) 算法解决数据不足下的离线强化学习问题,通过相对悲观的方式,在两个玩家之间进行 Stackelberg 博弈,找到 “差策略” 并优化策略,该算法在
→
PDF
2 years ago
Prev
Next