Jun, 2014

基于模型的强化学习和逃避维度

TL;DR本文研究学习优化未知马尔可夫决策过程问题,并通过参数化已知函数类来获得标度为系统维度而非基数的遗憾界,并提出了一种简单而计算高效的后验采样算法(PSRL)来满足这些界。