semi-bandit | BriefGPT - AI 论文速递

关键词semi-bandit

搜索结果 - 4

ICLR统一的无投影算法用于对抗性 DR-Submodular 优化
该论文介绍了统一的无投影 Frank-Wolfe 类型算法，用于对抗性连续 DR - 次模优化，跨越了全信息和（半）助手反馈、单调和非单调函数、不同约束和类型的随机查询等情景。在非单调设置中，所提出的算法要么是第一个经过证明具有亚线性 α-
PDF4 months ago
基于位置模型的多次游戏赌博机
通过使用基于位置的点击模型（PBM），利用可用的显示位置偏差信息，并提供新的遗憾下限和计算上有效的算法来解决多位置展示或列表中根据用户反馈顺序学习放置项目的问题。
PDF8 years ago
在线组合优化中的遗憾
本文研究使用二进制向量表示决策者可能的选择时的在线线性优化问题及其反悔，探讨了决策者在不同反馈条件下的最优反悔幅度，并提出了一种使用镜像下降算法和隐式归一化预测策略的解决方案，获得了半强盗情形的最优界限，同时也证明了在线组合优化基准算法的次
PDF12 years ago
组合式预测游戏的极小化策略
我们研究了在线线性优化问题，探讨了半强盗、强盗和完全反馈三种情况下的极小后悔量，并提出了使用 Bregman 投影技术的梯度下降通用策略以及上下界解决方案，并在最后指出了指数加权平均预测者对于 L∞对手是次优解的问题。
PDF13 years ago