Jun, 2022

控制变量的多保真度强化学习

TL;DR研究了基于多种保真度数据的强化学习问题,并提出了一种基于控制变量的多能级估计器以及基于多功能 Monte Carlo RL 方法来提高代理人在高保真度环境中的学习性能。