ICMLNov, 2023

离线强化学习的支持信任域优化

TL;DR在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze 领域的卓越性能。