Mar, 2022

大动作空间中的非线性强化学习:后验采样的结构条件和样本效率

TL;DR本工作提出了一种非线性函数近似的新方法,该方法考虑了具有一般动作空间下的线性可嵌入性条件,设计了一种新的乐观后验取样策略 TS^3,并展示了一些最坏情况的样本复杂度保证。