Jun, 2024

技能何时帮助强化学习?对时间抽象的理论分析

TL;DR技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究,理论和实证结果表明,状态解决方案的压缩性较低的环境中强化学习的技能优势较小,技能对于探索比现有经验的学习更具益处,使用宏动作等表达能力有限的技能可能会降低强化学习性能。我们希望这些发现可以指导自动技能发现的研究,并帮助强化学习从业者在何时如何使用技能上做出更好的决策。