Sep, 2024

可证明有效的无限时间平均奖励强化学习与线性函数逼近

TL;DR本文提出了一种计算上可行的算法,用于学习无限时间平均奖励的线性马尔可夫决策过程(MDP)和线性混合MDP,满足贝尔曼最优性条件。该算法在保证计算效率的同时,对于线性MDP实现了已知的最佳后悔界限,具有显著的理论和实践意义。