BriefGPT.xyz
Ask
alpha
关键词
policy approximation
搜索结果 - 3
IJCAI
通过学习队友模型实现的分散 MCTS
本文提出一种可训练的在线分散式规划算法,基于分散蒙特卡洛树搜索,结合先前的剧集运行学习的队友模型,利用深度学习和卷积神经网络生成精确的策略逼近器,提高了策划性能。此算法支持去中心化在线规划的多代理系统.
PDF
4 years ago
原始 - 对偶 π 学习:对遍历式马尔可夫决策问题的样本复杂度和亚线性运行时间
本文提出了一种基于 Primal-Dual π Learning 的方法,利用线性对偶性更新价值与策略向量以逼近无穷时间和折扣因子为 1 的马尔可夫决策过程的最优策略,并给出了复杂度上界,并且这种方法还能应用于有限状态、有限动作空间以及随机
→
PDF
7 years ago
通过信念压缩寻找近似的 POMDP 解决方案
该研究提出了一种用于解决大型部分观察马尔可夫决策过程(POMDPs)的算法,通过降低置信度空间的维度来进行策略逼近,其中采用了指数族主成分分析方法,并且该算法成功地应用于合成问题和移动机器人导航任务中。
PDF
13 years ago
Prev
Next