Mar, 2024

有限覆盖混合强化学习的在线算法的自然推广

TL;DR混合强化学习利用在线和离线数据,研究其可证明的好处仍然很少,通过将状态 - 动作空间分区和在线算法温启动离线数据,我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征,从而在探索方面取得可证明的增益。