BriefGPT.xyz
Ask
alpha
关键词
finite-horizon
搜索结果 - 5
离线强化学习中的选择性不确定性传播
研究了有限时间内的离线强化学习问题,提出了一种基于动作影响估计的算法,可在统计上简单实例上胜过传统的悲观方法。
PDF
a year ago
计算有限时间赌博机的经典指标
本文介绍了一种只使用算术运算的递归自适应贪心算法,能在(伪)多项式时间内计算有限时间区间离散状态赌博机的 Gittins 指数,可作为无法计算得到的有限时间区间多臂赌博机问题的次优启发式指数规则。该算法在计算研究中与传统校准方法进行了基准测
→
PDF
2 years ago
零和马尔可夫博弈中通用的函数逼近
本文主要研究带有参数化的一般函数类的两人零和有限时间跨度马尔科夫博弈,在研究中提出了可行的算法,包括基于模型的算法和无模型算法,并且在状态 - 动作对数 $d$ 线性特征的情况下取得了比现有算法更好的效果,同时提出了最小极小规模的模型维度等
→
PDF
3 years ago
针对折扣设置的 Wang-Foster-Kakade 下限变形
本文研究了在有限时间和与折扣因素相关的情况下,批量强化学习中价值函数和特征覆盖的硬度,并说明了即使有无限数量的数据,学习也无法进行。
PDF
4 years ago
参考优势分解下几乎最优无模型强化学习
使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题,证明了该算法得到了比以前更好的失望值,并且在并发强化学习中表现出了较低的本地切换成本。
PDF
4 years ago
Prev
Next