Jun, 2023

超越 OOD 状态行为:支持跨域离线强化学习

TL;DR本文提出了交叉领域离线强化学习方法 BOSA,通过利用来自不同转移动态(环境)的源领域数据,解决了离线 RL 中存在的数据效率不高的问题,并通过实验证明其在离线数据效率方面的有效性。