- 基于数据驱动的上界置信度在重尾赌博机上的近优遗憾
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
- ICML利用(有偏)信息:带离线数据的多臂老虎机
利用离线数据在随机多臂赌博机的在线学习中进行了改进,提出了一个在线策略 MIN-UCB,在给定非平凡上界的情况下优于 UCB,适当地选择使用离线数据以提高性能,理论和实验结果都表明 MIN-UCB 是一个有效的策略。
- 用于带有重和超重对称噪声的随机赌博机的快速 UCB 类型算法
提出了基于一种不精确预算方法的智能多臂赌博机构建 UCB 型算法的新方法;推导出了相应于最优化方法的收敛速度的遗憾界;提出了一种新的算法 Clipped-SGD-UCB,并从理论和实证角度展示了在奖励中存在对称噪声的情况下,我们可以达到 O - 随机赌博机中同时实现群体曝光公平和组内精英主义
深入研究了公平性,提出了一种基于两个层次的公平性方法,保证每个组的最小曝光,并确保组内每个单元根据其优越性被拉动;通过提出的算法 BF-UCB,实现了对遗憾的上界为 O (√T) 的平衡,同时提供更好的组和个体曝光保证,并且不会显著降低奖励 - 固定预算下的最优臂识别:大偏差视角
通过大偏差原理,我们在适应性算法中建立了样本抽取比例与样本奖励之间的联系,从而改进了现有算法并设计了新算法,我们证明了新算法的性能优于现有算法,包括对众多抽样的广泛实验证实了这一观察结果。
- 在调解员反馈下的纯粹探索
该研究提出了一种严格推广的最佳臂标识问题,即在中介者反馈下的最佳臂标识问题,首先推导并分析了与该中介者反馈场景相关的样本复杂度的统计下界,然后提出了一种顺序决策策略,用于根据学习者已知的中介者策略发现最佳臂,最终将这些结果扩展到学习者不知道 - ICML带对数通信的 Langevin Thompson Sampling:赌博机和强化学习
本文提出了一种称为批量 Langevin Thompson Sampling 算法的方法,用于学习未知奖励分布和转移动力学,在批处理模式下,算法仅需要对数通信成本。 通过在随机多臂老虎机和无限时间域强化学习中应用此算法,保持与标准汤普森采样 - ICML协作多智体异构多臂赌博机
研究多人合作多智能体赌博问题,提出一种新的多人合作环境,并利用分散式演算法促进代理之间的合作,推导每个代理的累积遗憾度和群体的遗憾度上下限,并证明了该算法的近似最优行为。
- ICML多臂赌博机探索中的资源分配:通过自适应并行处理克服亚线性缩放
研究了在随机多臂老虎机中探索利用可分配计算资源的问题,提出了两个不同场景的算法,并验证了实验所得结论优于基准算法。
- ICML通过奖励偏置探索:针对随机多臂赌博机的奖励偏置最大似然估计
RBMLE 算法是一种针对随机多臂赌博机问题的学习算法,以奖励偏差最大似然估计法为基础,可以得到基于指数策略的解,同时它还能够适应性地估计未知参数,并在实验中表现优异。
- 分布相关和时间均匀的分段 i.i.d. 摇臂界
本文研究了随机多武器歹徒问题的设置,在未知变化点的情况下,将奖励分配为分段独立同分布且有界。我们集中研究了所有武器同时发生更改的情况,并针对涉及变化量(∆{^{chg}_{i,g}})和最优间隙(∆{^{opt}_{i,g}})的依赖间隙( - ICML随机赌博机上的数据污染攻击
本文旨在研究敌对攻击策略对多臂赌博算法的影响,并提供了离线攻击和在线攻击的策略,展示了潜在的安全威胁。
- 更好的随机赌博机算法与对抗性干扰
研究了存在对抗性污染的随机多臂赌博机问题,在此问题上提出了一种新算法,其遗憾几乎是最优的,相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的,并且可以承受相当大的污染,几乎不会降低性能。
- 腐烂强盗并不比随机强盗更难
本文研究了非参数腐败赌博机算法的问题,提出了一种基于增长窗口平均数的过滤算法 FEWA,用于识别在一次推动后更可能返回高回报的臂。证明了 FEWA 算法在不知道臂的下降行为的情况下,可以实现与扩展周期吻合的回归界限。通过仿真实验也证明了 F - 多人赌博机问题:一种追踪方法
本文研究了具有许多玩家的随机多臂老虎机。结果表明我们提出的一种新的 “徒步旅行策略” 不需要估计玩家的数量,同时保证了静态情况下常数风险和动态情况下高概率的子线性风险表现。我们还证明了我们的算法的有效性。
- 多臂老虎机中带延迟反馈的最佳臂识别
本文研究了在多臂赌博机的延迟反馈场景下,如何利用局部反馈来提高标准算法的样本复杂度。采用模型化的方法探讨了局部反馈和延迟反馈之间的关系,并提出了一种用于处理偏差或无偏差情况下局部反馈的有效算法。另外,还针对并行多臂赌博机提出了一种新的算法扩 - 组合型纯探索的近最优采样算法
本文研究了随机多臂老虎机的组合纯探索问题,提出了一种新的样本复杂度的下界和一种新的抽样算法,并用于凸优化的分离与优化等价和近似 Pareto 曲线等技术改进了多个普遍应用的组合约束条件的纯探索问题的已有方法。此外,我们还提出了更通用的问题, - 正确地进行玻尔兹曼探索
本文讨论 Boltzmann 探索策略在不同情况下的效果,提出了一种新的方法,可以在不知道时间范围和次优解差距的情况下,保证了概率分布相关和独立的后悔界限。
- ICML单模臂:遗憾下限和最优算法
研究了随机多臂老虎机问题,通过一个单峰函数来表示不完全有序的臂的期望奖励。对于离散和连续臂的情况,分别提出了 OSUB 和 UCB 算法,并得到了渐进的上下界和提高性能的实验结果。
- 多臂赌博机中的风险规避
介绍了基于风险规避原则的随机多臂赌博机的新场景,使用方差作为风险度量,提出了两种新算法,并调研了它们的理论保证和初步实证结果.