Oct, 2021
线性 MDPs 中的强化学习:常数遗憾和表示选择
Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection
Matteo Papini, Andrea Tirinzoni, Aldo Pacchiano, Marcello Restelli, Alessandro Lazaric...
TL;DR研究在具有线性结构的有限时间马尔可夫决策过程(MDPs)中,状态 - 动作价值函数的表示在遗憾最小化中所扮演的角色,提出了普遍跨越最优特征(UNISOFT)的概念,证明当给定的表示满足 UNISOFT 条件时,提出的算法达到恒定的遗憾。