Sep, 2022

带 B - 稳定性的部分可观测强化学习:统一的结构条件和尖锐的样本高效算法

TL;DR本论文在预测状态表示的一般设置中针对部分可观察的强化学习提出了一种自然而统一的结构条件,即 B 稳定性,并通过乐观极大似然估计、估计至决策和基于模型的乐观后验抽样的三种算法来实现对 B 稳定性预测状态表示的多项式样本学习,并且取得了很好的样本复杂度。