ICMLNov, 2023
离线强化学习的支持信任域优化
Supported Trust Region Optimization for Offline Reinforcement Learning
Yixiu Mao, Hongchang Zhang, Chen Chen, Yi Xu, Xiangyang Ji
TL;DR在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze 领域的卓越性能。