关键词regret-optimal algorithms
搜索结果 - 2
- 基于每个项目预算约束的在线协同过滤:阻塞协同强盗
设计了一个叫做 B-LATTICE(通过矩阵完成的被阻塞潜在臂选择的协作性乐透机制)的算法,通过满足预算限制并在用户之间进行协作,以最大化他们的累积奖励。在理论上,满足合理的潜在结构假设,对于具有 M 个用户,N 个臂,每个用户 T 轮和 - 混淆核化赌博机的双重仪器方法
本论文中,我们解决了在 contextual bandit 问题中噪声被 confounder 影响的问题,引入了潜在的 confounder,并且应用了双重工具变量回归来解决 reward function 估计中的偏差问题,设计出基于理