May, 2024

卷积投影:连续空间马尔可夫决策过程中强化学习的最佳样本复杂度

TL;DR学习连续空间马尔可夫决策过程中的ε-最优策略问题,在具有光滑Bellman算子的一般类别中,通过使用正交三角多项式特征的简单的扰动最小二乘值迭代,并结合基于谐波分析的新型投影技术,实现了速率最优的样本复杂性。