May, 2024
卷积投影:连续空间马尔可夫决策过程中强化学习的最佳样本复杂度
Projection by Convolution: Optimal Sample Complexity for Reinforcement
Learning in Continuous-Space MDPs
TL;DR学习连续空间马尔可夫决策过程中的ε-最优策略问题,在具有光滑Bellman算子的一般类别中,通过使用正交三角多项式特征的简单的扰动最小二乘值迭代,并结合基于谐波分析的新型投影技术,实现了速率最优的样本复杂性。