May, 2023

线性 MDP 的离线原始 - 对偶强化学习

TL;DR本文提出了一种基于线性规划的原对偶优化方法,该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证,采用函数近似和最小数据集假设解决了无限时间范式的算法问题,并在更具挑战性的平均回报设置下进行了分析。