Jan, 2019

使用值函数界限在没有领域知识的情况下加强强化学习的问题相关遗憾范围

TL;DR该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。