BriefGPT.xyz
Ask
alpha
关键词
stochastic domains
搜索结果 - 5
MM
随机领域贝叶斯策略搜索
该研究将随机领域的政策搜索视为贝叶斯推断问题,并提供了一种将此类问题编码为嵌套概率程序的方案。研究表明,即使使用更简单、更普遍的推断算法,仍然可以学习到质量相似的策略。
PDF
4 years ago
通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用
该研究考虑了两种不同的学习方式:模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法,并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题,
→
PDF
4 years ago
连续状态 - 动作非高斯系统的集中模型学习和规划
引入了一个针对具有连续状态和动作空间以及非高斯转移模型的随机域的模型学习和规划框架。该框架高效,因为只有在计划器需要它们时才估计局部模型;计划器集中于当前规划问题的最相关状态;计划器专注于信息最丰富和 / 或价值最高的动作。我们的理论分析显
→
PDF
8 years ago
面向对象贝叶斯网络
本文提出一种面向对象的贝叶斯网络(OOBN)语言,旨在解决在面临大型复杂的领域时,使用贝叶斯网络进行建模的困难,并描述了建立复杂领域的过程中所采用的用于描述对象间关联的碎片化贝叶斯网,并提供了 OOBN 的推理算法以及在推理过程中利用模型碎
→
PDF
11 years ago
部分可观察马尔可夫决策过程的值函数逼近
本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似(启发式)方法,研究其性质和关系,并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。
PDF
13 years ago
Prev
Next