用于任务无关状态抽象的因果动态学习
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学习无模型策略和 Q 函数。此外,我们提出了一种混合规划策略,将学习到的策略、Q 函数和模型结合起来,以提高规划的时间效率。通过实际演示,我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。
Jul, 2024
最近的研究表明扩散模型是学习行为克隆中源自示范数据的多模式分布的有效方法,但该方法的缺点在于需要学习一个比学习明确策略更复杂的降噪函数。在本研究中,我们提出了等变扩散策略,这是一种利用域对称性来获得更高样本效率和泛化性能的新型扩散策略学习方法。我们从理论上分析了完整的 6 自由度控制中的 SO (2) 对称性,并表征了扩散模型何时是 SO (2) 等变的。此外,我们在 MimicGen 的一组 12 个仿真任务上对该方法进行了实证评估,并显示其成功率平均比基线扩散策略高出 21.9%。我们还在一个真实系统上对该方法进行了评估,以表明相对较少的训练样本就可以学习到有效的策略,而基线扩散策略则做不到。
Jul, 2024
强化学习算法可以通过视觉观察学习机器人控制任务,但在视觉场景复杂且无结构时通常需要大量数据。本文探讨了代理器对其形状的认知如何提高视觉强化学习方法的样本效率,提出了一种名为 DEAR 的新方法,通过特征分离约束使用代理器的分割掩模作为监督来学习环境和代理器的解耦表示,在强化学习目标上以这些表示为辅助损失,以鼓励代理器专注于环境的相关特征。我们在两个具有挑战性的基准测试上评估了 DEAR:Distracting DeepMind 控制套件和 Franka Kitchen 操纵任务。我们的研究结果表明,DEAR 在样本效率方面超越了最先进的方法,通过减少参数数量实现了与其相当或更优越的性能。我们的研究结果表明,将代理器的认知融入视觉强化学习方法具有提高学习效率和鲁棒性的潜力。
Jun, 2024
通过引入一种在线、元梯度算法,我们改善了规划过程的效率,进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象,并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。
Jun, 2024
利用 MEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning) 方法,可以通过人类介入进行样本高效的策略对齐。
Jun, 2024
通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法,其中的关键思想是通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性,通过在 DeepMind Control Suite 的各个领域和任务上的实验结果表明,该算法优于或与现有的无监督强化学习算法的性能相当。
Jun, 2024
基于模型的强化学习中,模拟经验往往被视为与真实环境的经验等价。然而,当模型不准确时,它可能对策略学习造成灾难性干扰。相反,智能体可以学习模型的准确性,并仅在可以提供可靠预测时有选择地使用它。我们通过实证研究探讨了模型不确定性测量与选择性规划,并展示了最佳结果需要分布不敏感推理来估计基于模型的更新的不确定性。为此,我们提出并评估了一种基于边界框的推理方法,它在可能状态和其他量的边界框上进行操作。我们发现,基于边界框的推理能够可靠地支持有效的选择性规划。
Jun, 2024