基于核函数的平均奖励强化学习函数逼近：一种乐观的无遗憾算法

Oct, 2024

基于核函数的平均奖励强化学习函数逼近：一种乐观的无遗憾算法

Kernel-Based Function Approximation for Average Reward Reinforcement Learning: An Optimist No-Regret Algorithm

Sattar Vakili, Julia Olkhovskaya

TL;DR本研究解决了在无限期平均奖励强化学习中，利用核岭回归预测期望价值函数的相关问题。提出了一种乐观的算法，并在核函数建模假设下建立了新的无遗憾性能保证。此外，研究还推导出了一种新的信心区间，用于核基预测在不同强化学习问题中的应用。

Abstract

Reinforcement Learning utilizing Kernel Ridge Regression to predict the expected value function represents a powerful method with great representational capacity. This setting is a highly versatile framework amen