由学习的环境模型指导的部分可观测性下的强化学习
本文提出了一种基于循环神经网络(RNN)的近似因果状态算法,该方法学习从POMDP中的历史动作和观察预测未来观察情况的因果状态表示。实验证明,所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题,并与之前的方法进行比较。
Jun, 2019
本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法,该算法包含了两个部分,即可变循环模型和强化学习控制器;实验证明,该算法比其他方法在数据效率和策略学习上表现更好。
Dec, 2019
本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类POMDP,它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法,并建立了一组在表格和丰富观察设置下,学习这类问题的近优策略的样本复杂性的上下界,并证明了短期记忆对于这些环境的强化学习已经足够。
Feb, 2022
该论文介绍了应用于部分可观测的情况下的强化学习模型,探讨了在一些特殊情况下该模型的使用,提出了一种通过乐观估计与极大似然估计相结合的简单算法,能够保证在这些特殊情况下有多项式样本复杂度可行的方法。
Apr, 2022
通过提出一种新的基于双线性Actor-Critic框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
Jun, 2022
通过观察其余状态以有效学习核心状态之间的状态转移规则,针对部分可观测马尔科夫决策过程(POMDP)提出一种面向目标的强化学习方法。 在逐步添加新的核心状态到转换图中的同时,本模型仅包含核心状态,它监督一小部分核心状态以了解动态环境并获得最佳行为策略,这使其具有良好的可解释性。 此外,该方法适用于在线学习,可以抑制内存消耗并提高学习速度。
May, 2023
本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题,并通过对表示视图的利用提出了一种可行的强化学习算法,可在部分观测输入下实现比现有算法更高的性能,推动可靠强化学习在实际应用中的应用。
Nov, 2023
在标准强化学习设置中,通过立即获得行为后效果的反馈是常见的假设;然而,由于物理限制,在实践中这种假设可能并不成立,可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟。通过将延迟型POMDP降低为具有世界模型的延迟型MDP,我们的方法可以有效处理部分可观察性,在现有方法在可观察性降低时实现次优性能甚至迅速降级的情况下表现出更好的性能。实验证明,我们的方法之一可以比天真的基于模型的方法的表现高出30%。此外,我们首次在基于视觉输入的延迟环境上评估了我们的方法,展示了延迟感知的视觉观察强化学习。
Mar, 2024
强化学习算法通常依赖于环境动态和价值函数可以用马尔可夫状态表示的假设。然而,当状态信息只能部分观察到时,代理如何学习这样一种状态表示,以及如何检测是否找到了这样一个表示?我们引入了一种度量标准,可以同时完成这两个目标,而无需访问或了解底层的不可观测状态空间。我们的度量标准,即λ-偏差,是两个不同时间差分(TD)值估计的差异,每个估计都使用了具有不同λ值的TD(λ)进行计算。由于TD(λ=0)做出了隐含的马尔可夫假设而TD(λ=1)则不做,这些估计之间的差异是非马尔可夫状态表示的潜在指标。事实上,我们证明了对于所有马尔可夫决策过程,λ-偏差恰好为零,对于一类广泛的部分可观测环境,λ-偏差几乎总是非零的。我们还通过经验证明,一旦检测到,最小化λ-偏差有助于学习内存函数以减轻相应的部分可观测性。然后,我们训练一个强化学习代理,同时构建两个具有不同λ参数的递归值网络,并将它们之间的差异最小化为辅助损失。该方法可适用于具有挑战性的部分可观测领域,结果表明,所得代理的性能通常显著优于仅具有单个值网络的基线递归代理(并且从不更差)。
Jul, 2024