关键词partially observable markov decision processes
搜索结果 - 62
- 无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代
该研究论文探讨了部分可观测马尔可夫决策过程(POMDPs)中的最大可达性概率问题(MRPP),研究了一种基于点估计方法和基于试探性启发式搜索的新算法,解决了处理无限时域问题中循环的问题,并在实验评估中表现出优越性。
- 风险厌恶 POMDP 的简化与绩效保证
在部分可观察域中,面临不确定性的风险规避决策是人工智能领域的一个基本问题,对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程(POMDPs)建模并采用回报的条件风险价值(CVaR)作为值函数。这项工作开发了一个简化框架,以加 - POMDP 中最优奖励应观察什么?
针对部分可观察的马尔可夫决策问题 (POMDPs),本文研究了一种新颖的最优可观测性问题 (OOP):如何在固定预算下选择一种代理人的传感器,使其达到预期目标。研究表明该问题在一般情况下是不可判定的,而考虑位置策略时是可判定的。我们提出了两 - IJCAI不精确概率遇上部分可观测性:强健 POMDPs 的游戏语义
部分可观察马尔可夫决策过程(POMDPs)依赖于概率分布的精确性,而鲁棒 POMDPs 通过定义不精确的概率(称为不确定性集)来缓解这一问题。本研究通过展示:1)不同的不确定性集假设会影响最优策略和价值;2)RPOMDPs 具有部分可观察随 - 利用反事实路径对 POMDP 策略进行对比解释
通过使用用户提供的反事实来生成 POMDP 策略的对比解释,探索可解释人工智能的方法以提高系统透明度并建立信任,本文以 Search and Rescue (SAR) 为例进行了分析和讨论相关挑战。
- POMDP 中的策略指导的逻辑规范学习:归纳逻辑编程方法
从 POMDP 执行的痕迹中学习得到高质量的启发式方法,通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范,以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming - 重温具有记忆单子的循环强化学习
强化学习中,使用记忆模型如 RNN 和 transformers 来处理部分可观测的马尔科夫决策过程(POMDPs),但这些模型在处理长序列时无法很好地扩展,与一种新兴的线性循环模型相比,其性能较差。我们发现这些模型的循环更新是一个幺半群, - 学习 POMDP 策略的可解释且性能更好的表示
部分可观察马尔科夫决策过程(POMDP)的策略通常需要记忆,本文介绍了一种使用 L*- 算法学习策略的自动机表示的方法,相比于策略的表格表示,生成的自动机规模更小、更易解释,同时在学习过程中,我们的启发式方法甚至可以改善策略的性能,相较于直 - 用于机器人物体消歧的 LLM
该研究揭示了预训练大型语言模型在机器人领域中有效消除对象歧义和导航决策挑战方面的能力,特别是在与部分可观测马尔可夫决策过程(POMDPs)进行模拟的复杂决策挑战中。通过将大型语言模型整合到桌面环境消除歧义任务中,我们采用了少样本提示工程系统 - 可验证的表示与高效规划用于部分可观察强化学习
本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题,并通过对表示视图的利用提出了一种可行的强化学习算法,可在部分观测输入下实现比现有算法更高的性能,推动可靠强化学习在实际应用中的应用。
- 在具有概率保证和实践的连续 POMDP 规划中简化复杂的观测模型
使用简化观测模型进行规划,同时保证解决方案的质量,无需在规划过程中访问昂贵的模型,以统计总变差距离为基础提出了一种新的概率界,通过广义化最近的粒子 - 信念 MDP 收敛性界限的结果来限制理论 POMDP 值与简化模型下的经验规划值之间的差 - 基于后验采样的时态 POMDP 学习算法的遗憾分析
本文研究了具有未知转移和观测模型的 POMDPs 中的情节性学习问题,并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。
- 在线随机情况规划的展开策略
部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题,并提出了两种领域独立的启发式算法,一种基于经典规划中著名的 h_add 启发式算法,另一种在信念空间中计 - 具有随时确定性保证的在线 POMDP 规划
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
- 通过最优输运传播的蒙特卡洛树搜索
本论文介绍了一种新的备份策略用于 Monte-Carlo 树搜索 (MCTS),适用于高度随机和部分可观察的马尔可夫决策过程。我们采用概率方法,将值节点和动作值节点建模为高斯分布。我们引入了一种新的备份运算符,将值节点计算为其动作值子节点的 - 安全的 POMDP 在线规划方法之护盾技术
本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程(POMDPs)中的不确定性问题,其中通过计算和整合防护盾到在线规划算法(POMCP)中以确保安全性。实验结果表明,该方法在大型 POMDPs 中成功地保证了安全性,并对在线规划 - 基于深度强化学习的 POMDP 推断和鲁棒解决方案:铁路最优维护应用
本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解 - 多观测视角下的样本高效学习 POMDPs
该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究,并提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP,同时这两个子 - 低秩 POMDP 中可证明高效且具可行性的表示学习
本文研究部分可观测马尔可夫决策过程的表示学习,其中智能体学习将高维原始观察映射到紧凑表示并用于更高效的探索和规划,并提出一种基于最大似然估计和不确定性乐观算法的表示学习算法,从而在计算复杂度上获得高效的采样复杂度。
- 带有部分后见状态信息的 POMDP 在 RL 中的理论难度与可解性
本文研究部分可观察马尔科夫决策过程(POMDP),发现除非我们拥有完整的后见状态信息,否则需要指数级的样本复杂度才能实现对 POMDP 的一个 ε- 最优策略解,但有部分 POMDP 分类情况下,其状态信息是足够的,本文提出了新的算法并证实