Jan, 2024

MoMA: 基于模型的蜂道上升算法用于离线强化学习

TL;DR利用模型为基础的镜像爬升算法 (MoMA) 在部分离线数据覆盖下,采用通用函数逼近能力,通过在策略评估步骤中的转移模型置信区间内的最小化过程来保守估计值函数,然后在策略改进步骤中使用通用函数逼近而不是常用的参数策略类,从而充分利用模型为基础方法中固有的无限制策略空间,并且通过对返回策略的次优性建立理论保证。