BriefGPT.xyz
Jul, 2018
分解赌博机
Factored Bandits
HTML
PDF
Julian Zimmert, Yevgeny Seldin
TL;DR
该研究介绍了因式赌博模型,它是一种基于有限(赌博)反馈的学习框架,其中行动可以分解为原子行动的笛卡尔积。因式赌博将等级1赌博作为一个特例,但显着放宽了奖励函数形式的假设。我们提供了一种随时随地的随机因式赌博算法,并匹配了问题的上界和下界的常数。此外,我们表明,通过轻微修改,所提出的算法可以应用于效用基础的反复决斗赌徒。相对于现有算法,我们在遗憾边界的附加项方面获得了改进(这些附加项在时间范围内占支配地位,该时间范围呈指数增长)
Abstract
We introduce the
factored bandits
model, which is a framework for learning with limited (bandit) feedback, where actions can be decomposed into a Cartesian product of atomic actions.
factored bandits
incorporate
→