Feb, 2013

无折扣连续强化学习的在线遗憾界

TL;DR该研究针对连续状态空间中的无折扣强化学习问题,提出了一种结合状态聚合和使用置信上界实现面对不确定性乐观的算法,在 rewards 和 transition probabilities 保持 Holder 连续性的情况下,给出了子线性遗憾界。