Oct, 2023

离线强化学习中基于双模拟的表示方法的缺陷及其解决方法

TL;DR通过分析发现,离线强化学习任务中缺失的状态转换对于等价关系原则特别有害,导致估计无效。同时,奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现,我们提出在离线强化学习环境中应用期望分为运算符进行表示学习,从而防止对不完整数据进行过拟合。与此同时,通过引入适当的奖励缩放策略,我们避免了表示空间中特征崩溃的风险。我们在两个最先进的基于等价关系的算法 MICo 和 SimSR 上实现了这些建议,并在两个基准套件 D4RL 和 Visual D4RL 上展示了性能提升。代码可在 https://github.com/zanghyu/Offline_Bisimulation 中找到。