BriefGPT.xyz
May, 2017
强化学习的后验采样:最坏情况的遗憾界
Posterior sampling for reinforcement learning: worst-case regret bounds
HTML
PDF
Shipra Agrawal, Randy Jia
TL;DR
提出了一种基于后验采样的算法,应用于具有有限但未知直径的Markov决策过程中,证明了近最优的最坏情况遗憾上界。这种方法通过证明Dirichlet分布的反集中性,可能具有独立研究价值,并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。
Abstract
We present an
algorithm
based on
posterior sampling
(aka Thompson sampling) that achieves near-optimal worst-case
regret bounds
when the u
→