BriefGPT.xyz
Oct, 2021
无记忆随机策略优化在无限时域POMDP中的几何
The Geometry of Memoryless Stochastic Policy Optimization in Infinite-Horizon POMDPs
HTML
PDF
Guido Montúfar, Johannes Müller
TL;DR
本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中,根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态-动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。
Abstract
We consider the problem of finding the best memoryless
stochastic policy
for an infinite-horizon
partially observable markov decision process
(POMDP) with finite state and action spaces with respect to either the
→