技能批评家:为强化学习优化学得技能
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018
本文提出了一种新的分层强化学习算法HiPPO,它可以根据新任务的训练不断调整技能并与更高层次一起训练,该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度,并提出了一种训练时抽象方法,以提高所获得技能对环境变化的鲁棒性。
Jun, 2019
本文研究了如何将技能融入强化学习智能体的训练,提出了基于技能的新方法Hierarchical Kickstarting(HKS),并在复杂环境下的游戏NetHack及其他基线测试中验证了其表现优于其他方法,并认为利用预定义技能为具有大的状态-动作空间和稀疏奖励的强化学习问题提供了一个有用的归纳偏差。
Jul, 2022
本文提出了一种名为Intrinsic Reward Matching (IRM)的方法,通过skill discriminator将预训练和下游任务微调这两个阶段的学习结合起来,以更好地匹配内在和下游任务奖励,从而有效地利用预训练技能
Oct, 2022
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
通过离线数据集学习的、能够在不同领域中应用的多功能技能是一项全新的离线技能学习框架 DuSkill 的核心,通过引导式扩散模型生成可以应用于任务的多功能技能,从而增加不同领域中策略学习的稳健性。
Mar, 2024
技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究,理论和实证结果表明,状态解决方案的压缩性较低的环境中强化学习的技能优势较小,技能对于探索比现有经验的学习更具益处,使用宏动作等表达能力有限的技能可能会降低强化学习性能。我们希望这些发现可以指导自动技能发现的研究,并帮助强化学习从业者在何时如何使用技能上做出更好的决策。
Jun, 2024