BriefGPT.xyz
Nov, 2023
离线强化学习的支持信任域优化
Supported Trust Region Optimization for Offline Reinforcement Learning
HTML
PDF
Yixiu Mao, Hongchang Zhang, Chen Chen, Yi Xu, Xiangyang Ji
TL;DR
在离线强化学习中,基于行为策略的支持约束的支持下的支持信任区域优化(STR)保证了严格的策略改进,并在包括近似误差和采样误差的情况下保证步骤的安全策略改进,其理论和实证结果验证了其在MuJoCo运动领域和具有更具挑战性的AntMaze领域的卓越性能。
Abstract
offline reinforcement learning
suffers from the
out-of-distribution issue
and
extrapolation error
. Most policy constraint methods regulari
→