May, 2024

免模型强化学习中的$φ$-散度使用离线和在线数据

TL;DR鲁棒的φ-正则化马尔可夫决策过程(RRMDP)框架的关键贡献是提出了无模型算法,通过历史数据和在线采样来学习最优的鲁棒政策,并在高维系统中进行了理论保证。