BriefGPT.xyz
Ask
alpha
关键词
approximate linear action-value functions
搜索结果 - 1
ICML
学习具有低基本 Bellman 误差的近最优策略
研究在近似线性行动价值函数的情况下,基于低内在 Bellman 误差的探索问题,给出了一种算法,其高概率的遗憾上界与特征维数和 Bellman 误差有关,同时将其与先前的工作进行了比较,在线性 MDP 的情况下,证明了这个算法具有统计效率。
PDF
4 years ago
Prev
Next