May, 2024

多项式逻辑函数近似的强化学习中的随机探索

TL;DR我们研究了具有多项式逻辑(MNL)函数逼近的强化学习,其中马尔可夫决策过程(MDPs)的基础转移概率内核由具有状态和动作特性的未知转移核参数化。为了有非齐次状态转移的有限时段的情景,我们提出了具有频率后悔保证的随机探索算法,且具有可证明的高效性。