Aug, 2024

基于模型的强化学习:一种极简策略应对无地平线和二阶界限

TL;DR本研究解决了基于模型的强化学习在在线与离线设置中的悔恨与样本复杂度界限的问题。通过引入乐观与悲观规划程序,在简单的模型学习框架下,我们实现了无地平线和二阶界限的强悔恨分析。我们的算法简洁且标准,能够有效利用丰富的函数逼近能力,具有重要的理论与实际应用价值。