Oct, 2024

利用未标记的先前数据为高效在线探索提供技能

TL;DR本研究解决了在强化学习中如何有效利用未标记的轨迹数据来提升探索策略的问题。通过提取低级技能并伪标记未标记的数据,我们提出了一种新方法SUPE,该方法结合了这些策略,能够在稀疏奖励的长时间任务中显著提高探索效率。研究结果表明,SUPE在多项任务上超越了以往策略,展现出其潜在的应用价值。