Oct, 2021

线性 MDPs 中的强化学习:常数遗憾和表示选择

TL;DR研究在具有线性结构的有限时间马尔可夫决策过程(MDPs)中,状态 - 动作价值函数的表示在遗憾最小化中所扮演的角色,提出了普遍跨越最优特征(UNISOFT)的概念,证明当给定的表示满足 UNISOFT 条件时,提出的算法达到恒定的遗憾。