Oct, 2018

贝叶斯策略优化模型不确定性

TL;DR解决不确定性对于自主系统在现实世界中的可靠适应至关重要。我们提出了一种模型不确定性的连续 Bayes-Adaptive Markov Decision Process(BAMDP)算法,其中代理人维护潜在模型参数的后验分布,并相对于该信念分布最大化其预期长期回报。我们的算法建立在最新的策略优化算法之上,以学习通用策略,以最大化贝叶斯价值函数的探索 - 开发权衡。为了应对从离散化连续潜在参数空间带来的挑战,我们提出了一种新的策略网络体系结构,可将信念分布独立于可观察状态地编码。我们的方法显着优于没有明确考虑信念分布而解决模型不确定性的算法,并且与现有的部分可观测马尔可夫决策过程求解器竞争力相当。