Jun, 2019

针对 POMDP 的模仿学习中的信仰表征学习

TL;DR该研究使用生成对抗(GAN)深度神经网络引导非马尔可夫策略策略的置信度表示,在一定程度上解决了部分可观察马尔可夫决策过程(POMDP)中的模仿学习问题。