用于任务无关状态抽象的因果动态学习

ICMLJun, 2022

用于任务无关状态抽象的因果动态学习

Causal Dynamics Learning for Task-Independent State Abstraction

Zizhao Wang, Xuesu Xiao, Zifan Xu, Yuke Zhu, Peter Stone

TL;DR本文介绍了一种名为 CDL 的任务无关状态抽象的因果关系动力学学习模型，它不仅从学习的动力学中产生状态抽象，而且还通过消除状态变量和动作之间的不必要依赖来提高泛化能力，并在两个模拟环境和下游任务中表现出比现有状态抽象方法更好的样本效率和对未知状态更好的泛化性能。

Abstract

Learning dynamics models accurately is an important goal for Model-Based Reinforcement Learning (MBRL), but most MBRL methods learn a dense dynamics model which is vulnerable to spurious correlations and therefore generalizes poorly to unseen states. In this paper, we introduce

model-based reinforcement learning causal dynamics learning state abstraction sample efficiency unseen states

发现论文，激发创造

线性子模最大化与赌徒反馈

在带有赌博反馈的子模函数优化中，考虑使用逼近算法来最大化线性结构的子模客观函数，通过模拟算法和实证研究检验了样本效率与线性结构的关系。

Jul, 2024

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

等变扩散策略

最近的研究表明扩散模型是学习行为克隆中源自示范数据的多模式分布的有效方法，但该方法的缺点在于需要学习一个比学习明确策略更复杂的降噪函数。在本研究中，我们提出了等变扩散策略，这是一种利用域对称性来获得更高样本效率和泛化性能的新型扩散策略学习方法。我们从理论上分析了完整的 6 自由度控制中的 SO (2) 对称性，并表征了扩散模型何时是 SO (2) 等变的。此外，我们在 MimicGen 的一组 12 个仿真任务上对该方法进行了实证评估，并显示其成功率平均比基线扩散策略高出 21.9%。我们还在一个真实系统上对该方法进行了评估，以表明相对较少的训练样本就可以学习到有效的策略，而基线扩散策略则做不到。

Jul, 2024

DEAR：无需重构的强化学习中解耦环境和智能体表示

强化学习算法可以通过视觉观察学习机器人控制任务，但在视觉场景复杂且无结构时通常需要大量数据。本文探讨了代理器对其形状的认知如何提高视觉强化学习方法的样本效率，提出了一种名为 DEAR 的新方法，通过特征分离约束使用代理器的分割掩模作为监督来学习环境和代理器的解耦表示，在强化学习目标上以这些表示为辅助损失，以鼓励代理器专注于环境的相关特征。我们在两个具有挑战性的基准测试上评估了 DEAR：Distracting DeepMind 控制套件和 Franka Kitchen 操纵任务。我们的研究结果表明，DEAR 在样本效率方面超越了最先进的方法，通过减少参数数量实现了与其相当或更优越的性能。我们的研究结果表明，将代理器的认知融入视觉强化学习方法具有提高学习效率和鲁棒性的潜力。

Jun, 2024

元梯度搜索控制：提高 Dyna 风格规划效率的方法

通过引入一种在线、元梯度算法，我们改善了规划过程的效率，进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象，并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。

Jun, 2024

基于内在动机反馈图的强化学习在缺货库存控制中的应用

提出了一种将强化学习与反馈图和内在动机探索相结合的决策框架，以提高应用强化学习在库存控制中的样本效率。

Jun, 2024

MEReQ：最大熵残差 Q 逆强化学习用于样本高效对齐

利用 MEReQ（Maximum-Entropy Residual-Q Inverse Reinforcement Learning）方法，可以通过人类介入进行样本高效的策略对齐。

Jun, 2024

具有广义函数近似的考虑不确定性的无奖励探索

通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法，其中的关键思想是通过不确定性感知的内在奖励来探索环境，并通过不同样本的不确定性加权学习处理异质性不确定性，通过在 DeepMind Control Suite 的各个领域和任务上的实验结果表明，该算法优于或与现有的无监督强化学习算法的性能相当。

Jun, 2024

基于模型的强化学习的误差感知边界框推断

基于模型的强化学习中，模拟经验往往被视为与真实环境的经验等价。然而，当模型不准确时，它可能对策略学习造成灾难性干扰。相反，智能体可以学习模型的准确性，并仅在可以提供可靠预测时有选择地使用它。我们通过实证研究探讨了模型不确定性测量与选择性规划，并展示了最佳结果需要分布不敏感推理来估计基于模型的更新的不确定性。为此，我们提出并评估了一种基于边界框的推理方法，它在可能状态和其他量的边界框上进行操作。我们发现，基于边界框的推理能够可靠地支持有效的选择性规划。

Jun, 2024

等变离线强化学习

通过使用有限数量的演示，本研究探讨了在离线强化学习中使用 $SO (2)$- 等变神经网络的可能性，并通过实验证明了等变性如何提高低数据情况下的离线学习算法。

Jun, 2024