Jul, 2023

基于函数逼近的稳健强化学习的自然动态演员 - 评论家

TL;DR我们提出了两种新的不确定性集合形式,一种基于双重采样,另一种基于积分概率度量,以应对训练模拟器和测试环境之间的模型不匹配问题,并通过引入函数近似的鲁棒自然行为者 - 评论者 (RNAC) 方法,为所提出的 RNAC 算法在有限时间内收敛到最优鲁棒策略提供了保证,并在多个 MuJoCo 环境和实际 TurtleBot 导航任务中展示了所学习策略的鲁棒性能。