构建简化和可重用的因果状态抽象用于增强学习

AAAIJan, 2024

构建简化和可重用的因果状态抽象用于增强学习

Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning

Zizhao Wang, Caroline Wang, Xuesu Xiao, Yuke Zhu, Peter Stone

TL;DR用因果对等建模（CBM）方法在有因子的状态空间中学习动力学和奖励函数的因果关系，以得出最小的，任务特定的抽象。CBM 的隐式动力学模型可以在相同环境中重复使用，实验验证表明 CBM 的学习到的隐式动力学模型比显式模型更准确地识别了底层因果关系和状态抽象。此外，得出的状态抽象能够使任务学习者在所有任务上实现接近理想的样本效率，并在所有任务中优于基线模型。

Abstract

Two desiderata of reinforcement learning (RL) algorithms are the ability to learn from relatively little experience and the ability to learn policies that generalize to a range of problem specifications. In factored state spaces, one approach towards achieving both goals is to learn

reinforcement learning state abstractions causal bisimulation modeling implicit modeling sample efficiency

发现论文，激发创造

学习部分可观测环境的因果状态表示

本文提出了一种基于循环神经网络（RNN）的近似因果状态算法，该方法学习从 POMDP 中的历史动作和观察预测未来观察情况的因果状态表示。实验证明，所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题，并与之前的方法进行比较。

Jun, 2019

双仿关系在目标条件强化学习中的应用

提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性，该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标，并且证明其可以适用于任何由纯状态奖励函数描述的下游任务

Apr, 2022

学做中：带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Feb, 2024

通过状态近似抽象实现近似最优行为

本研究探讨了使用状态抽象来减轻计划和强化学习算法中的组合爆炸问题。我们研究了近似状态抽象的理论保证和在各种环境中的有效性。结果表明，使用近似抽象可以减少任务复杂度和行为最优性的损失。

Jan, 2017

利用不变性学习基于动作的表示

使用动作双模拟编码，通过扩展单步可控性以递归的不变性约束，提出能捕捉长时序元素的多步可控性度量，通过在无奖励、均匀随机数据上进行预训练，提高了在多个环境中的样本效率，并展示了动作双模拟编码所捕捉到的信息。

Mar, 2024

样本高效强化学习的动态抽象表示学习

本文介绍了一种新的从上至下的方法，用于在执行强化学习的同时构建状态抽象，动态计算一个基于 Q 值分散的抽象，结果表明，这种方法自动学习细调问题的抽象，具有较强的样本效率，并使强化学习代理明显优于现有方法。

Oct, 2022

块 MDPs 不变因果预测

本研究利用因果推断工具，提出了一种不变预测方法，学习适用于具有共享潜在状态空间和动态结构的块 MDPs 的抽象，但观测值不同。研究证明，对于某些环境类别，该方法高概率输出与回报相关的原因特征集对应的状态抽象，并在多环境设置中提供更广泛的模型误差和泛化误差的限制。本研究的实证证据表明，该方法在线性和非线性设置中均能取得更好的泛化效果。

Mar, 2020

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

为可解释强化学习进行因果状态精炼

本文介绍了一种扩展奖励分解方法的因果学习框架，通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性：因果充分性、稀疏性和正交性，并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程，从而为行动选择提供更有意义和有洞察力的解释。

Dec, 2023