BriefGPT.xyz
Ask
alpha
关键词
upper bound on regret
搜索结果 - 1
非精确多臂赌博机
我们引入了一种新颖的多臂赌博问题框架,其中每个臂与一个固定的未知置信集相关联,覆盖了结果空间(可以比奖励更丰富)。臂 - 置信集对应关系来自已知的假设类。我们定义了一种与这些置信集定义的下概率相对应的遗憾概念。等价地,这个设置可以被视为一个
→
PDF
2 months ago
Prev
Next