May, 2024

线性 MDPs 中具有累积赌臂反馈的近最优遗憾

TL;DR该研究通过使用集成的 Q 函数和新的随机化技术构建基于值的乐观算法,并使用新的对冲方案构建政策优化算法,对具有聚合强化学习反馈的线性函数逼近进行了扩展研究。