AAAIMar, 2022

基于非匹配生成模型的稳健马尔可夫决策过程的策略学习

TL;DR利用模拟器训练代理人以学习强健的策略是解决医疗、自动驾驶等高风险环境下数据实验不可行的问题。本篇研究以生成模型的形式将训练环境表达,并提出了一种基于博弈论的算法解决了在测试中出现的扰动与环境不确定性的问题,得到了一个近似最优的强健决策。