Oct, 2024
基于核函数的平均奖励强化学习函数逼近:一种乐观的无遗憾算法
Kernel-Based Function Approximation for Average Reward Reinforcement
Learning: An Optimist No-Regret Algorithm
TL;DR本研究解决了在无限期平均奖励强化学习中,利用核岭回归预测期望价值函数的相关问题。提出了一种乐观的算法,并在核函数建模假设下建立了新的无遗憾性能保证。此外,研究还推导出了一种新的信心区间,用于核基预测在不同强化学习问题中的应用。