Nov, 2024

混合迁移强化学习:基于转移动力学数据的可证样本效率

TL;DR本研究旨在解决在线强化学习中利用历史数据提高样本效率的挑战。提出了一种混合迁移强化学习(HTRL)设置,利用来自具有转移动力学的源环境的离线数据,使学习过程更有效。实验结果表明,所提出的HySRL算法在样本复杂性方面优于传统的在线强化学习方法,有潜力显著提升在不同环境中学习的效率。