Nov, 2022

针对鲁棒的基于模型的离线强化学习的领域通用性

TL;DR本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程的稳定性,并可以潜在地实现探索增强。