Mar, 2018

使用丰富观察的 Oracle 有效 PAC RL

TL;DR本文研究了 PAC 强化学习在富观察力下的计算复杂度,提出了基于确定性隐藏状态动态和随机富观察的可证明的样本有效算法,同时证明了在具有随机隐藏状态动态的情况下,已知样本有效算法 OLIVE 不能在 Oracle 模型中实现,通过几个示例表明了在这样一般的设置中可计算 PAC 强化学习的根本挑战。