Oct, 2024

基于核函数的平均奖励强化学习函数逼近:一种乐观的无遗憾算法

TL;DR本研究解决了在无限期平均奖励强化学习中,利用核岭回归预测期望价值函数的相关问题。提出了一种乐观的算法,并在核函数建模假设下建立了新的无遗憾性能保证。此外,研究还推导出了一种新的信心区间,用于核基预测在不同强化学习问题中的应用。