关键词partially observable markov decision process
搜索结果 - 30
- ICLR循环元元强化学习智能体内部发生了什么?
通过 POMDP 框架解决元 RL 问题的本质,发现递归元 RL 智能体可以被视为在由多个相关任务组成的部分可观测环境中最优地行动的代理,帮助我们理解它们的失败情况和文献中一些有趣的基于模型的结果。
- IJCAI适应性汤普森抽样堆栈用于内存有限的开环规划
提出一种名为 SYMBOL 的规划方法,该方法采用稳定但内存有限的方法处理部分可观测的开环规划,通过自适应使用 Thompson Sampling bandits 堆栈实现,适用于不需要先前领域知识和面向各种领域的问题,同时在四个大型 PO - 学习表征部分可观测任务的触觉反馈
本文提出了一种将触觉感知反馈模型建模成部分可观察 Markov 决策过程并利用深度递归神经网络优化来进行任务操作的方法,其可以用于完成机械臂旋转旋钮等多种指定任务。
- 基于 POMDP 的序贯贝叶斯优化方法在无人机环境监测中的应用
本文提出了一种在部分可观察马尔科夫决策过程 (POMDP) 框架下,针对连续轨迹的贝叶斯优化方法,并通过蒙特卡罗树搜索 (MCTS) 解决了这个问题,该方法在使用 UAV 监测空间现象方面表现优于竞争技术。
- DESPOT: 在线 POMDP 规划与正则化
该研究提出了一种利用确定性稀疏部分可观察树 (DESPOT) 算法进行在线不确定性规划的方法,其通过随机采样场景来紧凑地捕获所有策略的执行,得到的最佳策略接近最优,并具有一定的遗憾,该算法已成功应用于实时汽车控制。
- 面向不确定性的机器人强鲁棒规划中的 POMDP-lite
本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite, 使用该方法解决机器人任务时计算复杂度减小,我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型,效果优于当前最先进的 POMDP - 透过事后优化共享自主性
本研究使用部分可观察马尔可夫决策过程来模拟共享自动化中的用户意图不确定性,并采用最大熵逆优化控制来估算用户目标的分布。研究还使用后见优化技术近似解决了优化问题。用户实验结果表明,该方法可以更快地完成任务,同时使用的输入较少,但用户对任务完成 - 关于具有 ω- 正则目标的部分可观察马尔可夫决策过程的可决定性
本文他认为配对绘图监测问题的 POMDP 用内存 Markov 实现的部分角色并支持 parity 主题,并讲达了所有 parity 主题的重置分析问题及可编码重置分析命令为有限内存内存固定质量。
- PEGASUS:用于大型 MDPs 和 POMDPs 的策略搜索方法
在马尔可夫决策过程 (MDP) 或部分可观测马尔可夫决策过程 (POMDP) 中搜索策略的问题上,我们提出了一种新的方法,即通过将(PO)MDP 换成一个 “等价” 的 POMDP,其中所有状态转换都是确定性的,然后通过搜索价值最高的策略来 - 大规模 POMDP 的即时点估计近似
介绍了一种名为 PBVI 的基于点值备份策略的实时部分可观测的马可夫决策过程,该策略通过选择信息信念点提高了算法效率,同时在标准的 POMDP 域和现实机器人任务中进行了实验评估。