块 MDPs 不变因果预测

ICMLMar, 2020

Invariant Causal Prediction for Block MDPs

Amy Zhang, Clare Lyle, Shagun Sodhani, Angelos Filos, Marta Kwiatkowska...

TL;DR本研究利用因果推断工具，提出了一种不变预测方法，学习适用于具有共享潜在状态空间和动态结构的块 MDPs 的抽象，但观测值不同。研究证明，对于某些环境类别，该方法高概率输出与回报相关的原因特征集对应的状态抽象，并在多环境设置中提供更广泛的模型误差和泛化误差的限制。本研究的实证证据表明，该方法在线性和非线性设置中均能取得更好的泛化效果。

Abstract

generalization across environments is critical to the successful application of reinforcement learning algorithms to real-world challenges. In this paper, we consider the problem of learning →

reinforcement learning abstractions generalization causal inference multi-environment setting

发现论文，激发创造

学习部分可观测环境的因果状态表示

本文提出了一种基于循环神经网络（RNN）的近似因果状态算法，该方法学习从 POMDP 中的历史动作和观察预测未来观察情况的因果状态表示。实验证明，所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题，并与之前的方法进行比较。

Jun, 2019

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

构建简化和可重用的因果状态抽象用于增强学习

用因果对等建模（CBM）方法在有因子的状态空间中学习动力学和奖励函数的因果关系，以得出最小的，任务特定的抽象。CBM 的隐式动力学模型可以在相同环境中重复使用，实验验证表明 CBM 的学习到的隐式动力学模型比显式模型更准确地识别了底层因果关系和状态抽象。此外，得出的状态抽象能够使任务学习者在所有任务上实现接近理想的样本效率，并在所有任务中优于基线模型。

Jan, 2024

可预测的 MDP 抽象用于非监督式模型基础强化学习

本研究提出了一种可预判马尔可夫决策过程抽象的方法，通过无监督学习在训练模型时进行转换，使得模型的学习变得更加容易和精确，从而实现强大的基于模型的规划或基于模型的强化学习，已在多项基准环境中证明了其较先前的无监督模型训练方法具有显著的改进。

Feb, 2023

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

对有限记忆 POMDP 的表示学习进行多步逆模型的泛化

学习代理中心状态表示的关键挑战在于在强化学习算法扩展和高效应用于下游任务时，仅对相关信息进行编码而舍弃无关信息。该研究考虑在更具挑战性的高维非马尔可夫环境中，从过去观察序列中译码状态的发现代理中心状态问题，并通过适应广义逆模型来解决此任务。研究结果包括确定性动力学环境下的渐近理论以及对替代直观算法的反例。我们通过对所提出的不同替代方案的代理中心状态发现能力进行了彻底的实证研究，其中对过去行动的分析尤为引人注目：我们表明，当正确使用时，过去行动可以使算法更加成功，而错误使用时则会导致严重的失败。

Apr, 2024

通用策略的不变因果模仿学习

基于多个环境中的行为演示来学习模仿策略，通过学习跨域不变的特征表示，构建与专家行为匹配的模仿策略，以实现在未见环境中的泛化能力。

Nov, 2023

基于不变因果学习算法在观测数据上应用的一步

该研究提出了一种方法，使用多个训练环境来生成不同干预的多个环境，并评估了基于模拟数据的不受监督的学习问题的 ICP 性能，最后与 ICP 相结合提出了改进的方法，提高了在具有多个协变量的数据集中进行因果发现的性能。

Apr, 2023

从一般环境中学习因果表示：可识别性和内在歧义

该论文研究因果关系表示学习，通过从我们观察到的低级数据中恢复高级潜在变量和它们之间的因果关系，假设可以访问从多个环境生成的观测结果。作者提出了一种可证明在无法使用硬干预的情况下所能达到的最佳可识别性概念，并针对线性因果模型和一般非参数因果模型提供了相应的可识别性保证。

Nov, 2023

一种使用学习 MDP 同态的状态 - 动作抽象简易方法

提出了一种新方法，即等效效果抽象，该方法利用环境动态的部分模型推断导致相同状态的状态动作对，从而将状态动作空间的大小减少一个等于动作空间基数的因子，以提高采样效率和规划效率。在网格世界环境下，通过实验证明，等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外，通过在车杆环境中进行实验，还表明本方法比现有方法更优秀，在使用 33 倍少的训练数据的情况下实现了更好的表现。

Sep, 2022