Jul, 2023

基于函数逼近的稳健强化学习的自然动态演员-评论家

TL;DR我们提出了两种新的不确定性集合形式,一种基于双重采样,另一种基于积分概率度量,以应对训练模拟器和测试环境之间的模型不匹配问题,并通过引入函数近似的鲁棒自然行为者-评论者(RNAC)方法,为所提出的RNAC算法在有限时间内收敛到最优鲁棒策略提供了保证,并在多个MuJoCo环境和实际TurtleBot导航任务中展示了所学习策略的鲁棒性能。