Nov, 2016

非参数通用强化学习

TL;DR本文提出了在非Markovian、非ergodic且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果,并证明Thompson采样在随机环境中是渐进最优的。此外,作者构建了一个大但可计算的类,展示了基于Thompson采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。