具有不完全可观测性的高效强化学习:学会通过延迟和缺失状态观测来行动
本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类POMDP,它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法,并建立了一组在表格和丰富观察设置下,学习这类问题的近优策略的样本复杂性的上下界,并证明了短期记忆对于这些环境的强化学习已经足够。
Feb, 2022
本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架,并提出了一种基于dropout网络的新方法BADDr,旨在解决BRL方法在拓展性上存在的瓶颈,并证实其在处理规模较大的情况时的有效性。
Feb, 2022
该论文介绍了应用于部分可观测的情况下的强化学习模型,探讨了在一些特殊情况下该模型的使用,提出了一种通过乐观估计与极大似然估计相结合的简单算法,能够保证在这些特殊情况下有多项式样本复杂度可行的方法。
Apr, 2022
本文提出了一种基于Q-learning和IoAlergia的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将RL与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度RL技术。
Jun, 2022
本文研究了Deep Reinforcement Learning在机器人控制任务中的应用,特别是在部分可观性条件下,比较了TD3、SAC和PPO算法的表现,并提出了改进部分可观性下TD3和SAC算法鲁棒性的多步版本算法。
Sep, 2022
本论文在预测状态表示的一般设置中针对部分可观察的强化学习提出了一种自然而统一的结构条件,即 B 稳定性,并通过乐观极大似然估计、估计至决策和基于模型的乐观后验抽样的三种算法来实现对 B 稳定性预测状态表示的多项式样本学习,并且取得了很好的样本复杂度。
Sep, 2022
该论文通过引入后见观察机制,研究了部分可观测环境下风险敏感强化学习的悔恨分析,提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时,能够实现多项式悔恨。该研究对强化学习的理论研究具有特殊意义。
Feb, 2024
在标准强化学习设置中,通过立即获得行为后效果的反馈是常见的假设;然而,由于物理限制,在实践中这种假设可能并不成立,可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟。通过将延迟型POMDP降低为具有世界模型的延迟型MDP,我们的方法可以有效处理部分可观察性,在现有方法在可观察性降低时实现次优性能甚至迅速降级的情况下表现出更好的性能。实验证明,我们的方法之一可以比天真的基于模型的方法的表现高出30%。此外,我们首次在基于视觉输入的延迟环境上评估了我们的方法,展示了延迟感知的视觉观察强化学习。
Mar, 2024
强化学习算法通常依赖于环境动态和价值函数可以用马尔可夫状态表示的假设。然而,当状态信息只能部分观察到时,代理如何学习这样一种状态表示,以及如何检测是否找到了这样一个表示?我们引入了一种度量标准,可以同时完成这两个目标,而无需访问或了解底层的不可观测状态空间。我们的度量标准,即λ-偏差,是两个不同时间差分(TD)值估计的差异,每个估计都使用了具有不同λ值的TD(λ)进行计算。由于TD(λ=0)做出了隐含的马尔可夫假设而TD(λ=1)则不做,这些估计之间的差异是非马尔可夫状态表示的潜在指标。事实上,我们证明了对于所有马尔可夫决策过程,λ-偏差恰好为零,对于一类广泛的部分可观测环境,λ-偏差几乎总是非零的。我们还通过经验证明,一旦检测到,最小化λ-偏差有助于学习内存函数以减轻相应的部分可观测性。然后,我们训练一个强化学习代理,同时构建两个具有不同λ参数的递归值网络,并将它们之间的差异最小化为辅助损失。该方法可适用于具有挑战性的部分可观测领域,结果表明,所得代理的性能通常显著优于仅具有单个值网络的基线递归代理(并且从不更差)。
Jul, 2024