- 实时循环强化学习
我们提出了一种新颖的强化学习算法,名为实时循环强化学习 (RTRRL),通过利用随机反馈局部在线学习 (RFLO) 近似实时递归学习 (RTRL) 来计算循环神经网络参数的梯度,并结合具有资格迹的时序差分强化学习 (TD (λ)),能在部分 - 基于后验采样的时态 POMDP 学习算法的遗憾分析
本文研究了具有未知转移和观测模型的 POMDPs 中的情节性学习问题,并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。
- 解决方案质量无任何妥协:通过自适应多层简化加速基于信念的连续 POMDPs
基于置信度树和 MCTS 的自适应多层简化理论可加速连续 POMDP 在线规划,不损失解决方案质量。
- 暗中结交:不完全可观测下的临时团队合作
该论文提出了一种关于部分可观测性的临时小组合作模式的正式定义,并提出了一种基于模型的首要方法,仅依赖先前知识和对环境的部分观察以执行临时小组合作。通过我们在 11 个领域的 70 个部分可观测马尔可夫决策过程的实验结果表明,我们的方法不仅能 - 安全的 POMDP 在线规划方法之护盾技术
本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程(POMDPs)中的不确定性问题,其中通过计算和整合防护盾到在线规划算法(POMCP)中以确保安全性。实验结果表明,该方法在大型 POMDPs 中成功地保证了安全性,并对在线规划 - 多观测视角下的样本高效学习 POMDPs
该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究,并提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP,同时这两个子 - BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs
介绍一种基于准确置信模型的 BetaZero 算法,该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策,解决了部分可观测领域的挑战,并在地质勘探等现实任务中表现出色。
- POMCP 中软策略引导的逻辑规范学习
本文介绍了如何使用归纳逻辑编程从 POMCP 执行的跟踪中学习规则并将它们集成到 POMCP 中,以提供对有前途的动作的软性策略偏向,我们在两个基准情景下说明,从小任务实例中学习到的规则的集成可以提高性能,并且需要更少的蒙特卡罗模拟并且处理 - 具有后见可观性的 POMDP 学习具有高效样本利用率
本文针对传统 POMDP 学习在简单环境下的效率问题,提出了一种新的算法 HOMDP,并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。
- 混合深度强化学习与规划的安全舒适自动驾驶
提出了一种名为 HyLEAR 的新型混合学习方法,用于在 POMDP 中解决自动驾驶汽车的无碰撞导航问题。HyLEAR 利用中介学习将混合规划器的知识嵌入到深度强化学习器中,以更快速地确定安全舒适的驾驶策略。实验结果表明,HyLEAR 在关 - POMDP 的粒子信念逼近的最优性保证
本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中,与其他领先的连续观察 POMDP 求解器相比,表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力 - 乐观极大似然估计 —— 用于部分可观测序列决策的通用基于模型的算法
此研究介绍了一个简单高效的学习算法 OMLE,它结合了探索优化和极大似然估计,可在多项式数量的样本中学习当今已知的大多数可处理的强化学习问题,包括 POMDP 和 SAIL 条件下的普通顺序决策问题,并提供了一种奖励免费的近似动态模型学习方 - 具有短期记忆的可证明强化学习
本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP,它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法,并建立了一组在表格和丰富观察设置下,学习这类问题的近优策略的样本复杂性的上下界,并证明了短 - pymdp:离散状态空间主动推理的 Python 库
本研究介绍了 pymdp 这个 Python 包,它是开源的、可定制的并且能够模拟部分可观察的马尔可夫决策过程,实现了基于主动推理的认知行为分析,并取代了 MATLAB 的 DEM toolbox,以提高不同学科背景的研究人员和工程师对主动 - ICML基于循环无模型强化学习算法可以成为许多 POMDP 问题的强基准线
本文通过比较 21 个环境中基于循环神经网络的无模型强化学习方法的效果,发现精心的架构和超参数决策通常可以实现比专门针对特定 POMDPs 设计的算法更好的表现,提出了一种简单高效的序贯决策模型作为 POMDPs 基线模型。
- 基于记忆的深度强化学习在 POMDPs 中的应用
本文介绍了一种基于 LSTM-TD3 的方法,该方法引入了记忆组件以应对部分可观察 MDPs,相比其他 DRL 算法,在具有部分可观察 MDPs 的情况下,该方法具有显著的优势,包括处理丢失和噪声观察数据的能力。
- AAAI基于模型和决策论的自动化网络安全响应视角
本研究旨在描述一种自动化网络攻击防御的方法,通过将被保护系统的模拟与任意在线规划应用于部分观测的马尔科夫决策问题(POMDPs),并结合基于模型的人工智能,以实现风险防范与效益平衡。
- 带有线性时态逻辑规约的 POMDPs 的随机有限状态控制
本研究提出了一种基于 POMDPs 的任意时间算法,通过在线性时态逻辑(LTL)清单约束条件下最大化满足概率来合成次优随机有限状态控制器(sFSCs),并通过机器人导航案例研究表明了该方法的有效性。
- POPCORN:部分观察预测约束强化学习
本文提出了一种新的优化目标,以批处理离线策略为特点,即使在某些观测对于规划无关紧要时,该方法也能产生高性能策略和高质量的生成模型,并将其应用于合成样例和一个具有挑战性的医疗决策问题。
- 如果最大熵强化学习是答案,那么问题是什么?
本文阐述了最大熵强化学习方法在解决某些具有奖励函数变异的控制问题中的优化作用,该方法还可以解决部分可观察马尔可夫决策过程且与双方博弈等效,其可以提供一定的洞见,指出在任务目标具有不确定性的领域中最大熵强化学习方法特别适用。