关键词partially observable domains
搜索结果 - 6
- 风险厌恶 POMDP 的简化与绩效保证
在部分可观察域中,面临不确定性的风险规避决策是人工智能领域的一个基本问题,对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程(POMDPs)建模并采用回报的条件风险价值(CVaR)作为值函数。这项工作开发了一个简化框架,以加 - 自适应概率信赖约束下的连续高维信念空间规划
研究了基于信念空间规划的在线决策问题,在信息收集等场景下,介绍了一种自适应的方法来寻求最大可行回报,应用这种方法可以在保证准确率的前提下显著加速在线决策过程,并进行了大量现实模拟来验证此方法的优越性。
- 利用场景图进行部分可观测机器人规划的推理
本文提出了一种在不确定情况下,让机器人根据场景分析算法构建的场景图,并利用图像信息进行机器人规划,从而在部分可观察性的领域中实现上下文感知机器人规划。实验结果表明,在目标搜索领域,该算法比标准机器人规划和场景分析方法具有更高的任务完成效率和 - 神经预测信念表示
本文探讨了使用现代神经网络结构学习信念表示的可能性,并使用一步帧预测和两个变体的对比预测编码作为目标函数来学习表示。我们发现,神经表示能够捕获到环境的信念信息,这有潜力在部分可观测领域中促进学习和规划的新进展。
- AIXI 近似强化学习
本文介绍了一种可扩展的通用增强学习代理的设计方法,该方法基于对 AIXI 的直接逼近,利用 Monte Carlo Tree Search 算法和 Context Tree Weighting 算法的代理特定扩展得以实现,实验表明该算法在多 - 使用外部内存学习策略
本文探讨了在部分可观察领域中,行动取决于观察历史背景的问题,并提供了一种新的基于异步信息传递的策略算法 SARSA。研究结果显示,这个算法能够很好地解决这一问题。