May, 2022

不能只依赖运气:决策Transformer和RvS在随机环境中的失败

TL;DR本文介绍了基于预测任务的强化学习方法在随机环境下的局限性,并提出了一种名为ESPER的解决方案,该方法学习轨迹聚类并以平均聚类收益进行条件约束,从而在真实环境中实现了目标收益和预期性能的强对齐。ESPER在多项挑战性的离线RL任务中展现出了更好的表现。