关键词randomized exploration
搜索结果 - 3
- 多项式逻辑函数近似的强化学习中的随机探索
我们研究了具有多项式逻辑(MNL)函数逼近的强化学习,其中马尔可夫决策过程(MDPs)的基础转移概率内核由具有状态和动作特性的未知转移核参数化。为了有非齐次状态转移的有限时段的情景,我们提出了具有频率后悔保证的随机探索算法,且具有可证明的高 - 先验依赖的函数逼近后验采样强化学习分析
利用线性混合马尔可夫决策过程模拟的函数逼近方法,本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限,并对后验抽样强化学习的贝叶斯遗憾分析进行了改进,提出了一个上界为 O (d√(H^3 T log T)) 的 - 动态学习系统中的算法审查
在动态学习系统中,选择性标记会导致检查,即对一个或多个子组中分配的持续负面预测。我们正式化了检查,展示了它如何出现,并强调了检查检测的困难。我们考虑对检查的保障 - 救济和随机探索 - 两者都确保我们收集标签以观察到否则不会被观察到的点。结