本文针对部分可观察 Markov 决策过程(POMDPs)和 ω 正则目标,研究了基于观测的策略,并解决了定性分析问题的计算复杂度和最优内存界限。
Sep, 2009
本文主要研究了一种称为公共观察逻辑的动态认知逻辑的计算复杂性,并探讨了该模型检查算法的实现,以及其在验证不同特征和交互系统方面的适用性。
May, 2022
本文讲述了一种基于特定约束的自主系统与多智能体的优化控制方法,以实现其最大化收益并同时满足时间逻辑约束的概率足够高。
May, 2023
我们研究了部分可观察随机博弈的可证明多智能体强化学习 (MARL)。我们主张利用智能体之间的信息共享,在可观察性假设的情况下构建一个近似模型来规划近似均衡,并开发了一种具有统计和计算上拟效率的部分可观察 MARL 算法。
Aug, 2023
本文提出了一种适用于处理局部观察下的临时团队协作问题的贝叶斯在线预测算法,其可无需预协调协作,有效地识别和解决来自团队成员的各种任务。
Jan, 2022
本文探讨了具有标准框架的 POMDPs,以模拟现实世界中存在的不确定性,以及时间逻辑规范。我们研究了帕里目标下的 POMDP 定性分析问题,该问题在理论上难以计算,但我们提出了解决该问题的实用方法,并在许多机器人应用的已知示例中使用了我们的实现。
Sep, 2014
通过提出一种新的基于双线性 Actor-Critic 框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
Jun, 2022
本文研究了 Deep Reinforcement Learning 在机器人控制任务中的应用,特别是在部分可观性条件下,比较了 TD3、SAC 和 PPO 算法的表现,并提出了改进部分可观性下 TD3 和 SAC 算法鲁棒性的多步版本算法。
Sep, 2022
本文提出了一种利用任务 - 导向的通信设计(TOCD)框架和信息价值(VoI)概念的新方法,以实现协作多代理系统中可扩展的任务定向量化和通信的设计。通过强化学习来学习值信息(VoI),并设计量化策略和代理控制策略,我们证明了该方法在广泛的问题下的适用性,并降低了所需计算 VoI 的计算复杂度。
提出了一种在部分可观察的马尔可夫决策过程(POMDP)中实现满足线性时间逻辑公式的策略的方法,该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率,并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域,并为最终策略的性能提供了强大的边界。
Jan, 2020