Nov, 2023

无标签先验数据加速探索

TL;DR从稀疏奖励信号学习解决任务是标准强化学习算法的一个重大挑战。然而,在现实世界中,代理很少需要完全从头开始解决稀疏奖励任务。本研究探讨了如何利用没有奖励标签的先前数据来指导和加速代理解决新的稀疏奖励任务,并提出了一种简单的方法,通过在线经验学习奖励模型,使用乐观奖励对未标记的先前数据进行标记,并与在线数据同时用于下游策略和评论家优化。研究结果表明,将未标记的先前数据纳入现有的在线强化学习算法非常容易,并且这样做的效果出乎意料地好。