Oct, 2023

偷袭计划对抗不完美观察者

TL;DR隐秘规划研究使用随机动力学和不完美观察来实现最佳任务表现而不被检测到,本文引入了马尔可夫决策过程和近端策略梯度方法来解决这个问题。