重新思考因果强化学习中的状态解耦
本文提出了一种基于循环神经网络(RNN)的近似因果状态算法,该方法学习从POMDP中的历史动作和观察预测未来观察情况的因果状态表示。实验证明,所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题,并与之前的方法进行比较。
Jun, 2019
本研究利用因果推断工具,提出了一种不变预测方法,学习适用于具有共享潜在状态空间和动态结构的块MDPs的抽象,但观测值不同。研究证明,对于某些环境类别,该方法高概率输出与回报相关的原因特征集对应的状态抽象,并在多环境设置中提供更广泛的模型误差和泛化误差的限制。本研究的实证证据表明,该方法在线性和非线性设置中均能取得更好的泛化效果。
Mar, 2020
本文探讨了利用Causal Inference理论和Latent-based causal transition model在offline data的基础上,使用observational data可以有效地提高model-based RL agents的generalization guarantees问题。
Jun, 2021
本文研究了强化学习系统在现实世界中部署的中心挑战——泛化,并展示了强化学习问题的时序结构需要新的泛化方法,同时介绍了一种新的部分可观察马尔可夫决策过程(POMDP)解决方案——认知 POMDP,通过简单的基于集成的技术解决了部分可观测性问题,证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。
Jul, 2021
研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法,并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题,提出了代理变量悲观策略优化(P3O)算法。
May, 2022
研究人员通过借鉴因果关系文献的见解,引入因果关系和强化学习,划分了现有Causal Reinforcement Learning (CRL)方法的两类,并分析了每一类的不同模型的形式化。
Feb, 2023
本文提出了一种新的非稳态强化学习的方法,即使用Causal-Origin REPresentation(COREP)算法,该算法主要利用引导更新机制来学习状态的稳定图表示,由此得到的策略对非稳态具有鲜明的适应性优势。
Jun, 2023
本文综述了因果强化学习的文献,介绍了其基本概念和如何应对非因果强化学习中的主要挑战,分类并系统地回顾了现有的因果强化学习方法,最后概述了该新兴领域的未解决问题和未来方向。
Jul, 2023
强化学习算法通常依赖于环境动态和价值函数可以用马尔可夫状态表示的假设。然而,当状态信息只能部分观察到时,代理如何学习这样一种状态表示,以及如何检测是否找到了这样一个表示?我们引入了一种度量标准,可以同时完成这两个目标,而无需访问或了解底层的不可观测状态空间。我们的度量标准,即λ-偏差,是两个不同时间差分(TD)值估计的差异,每个估计都使用了具有不同λ值的TD(λ)进行计算。由于TD(λ=0)做出了隐含的马尔可夫假设而TD(λ=1)则不做,这些估计之间的差异是非马尔可夫状态表示的潜在指标。事实上,我们证明了对于所有马尔可夫决策过程,λ-偏差恰好为零,对于一类广泛的部分可观测环境,λ-偏差几乎总是非零的。我们还通过经验证明,一旦检测到,最小化λ-偏差有助于学习内存函数以减轻相应的部分可观测性。然后,我们训练一个强化学习代理,同时构建两个具有不同λ参数的递归值网络,并将它们之间的差异最小化为辅助损失。该方法可适用于具有挑战性的部分可观测领域,结果表明,所得代理的性能通常显著优于仅具有单个值网络的基线递归代理(并且从不更差)。
Jul, 2024