- 具有均匀最后迭代保证的求解多臂赌博算法的近最优遗憾
该研究论文介绍了一种更强的性能度量方法,即统一最终迭代保证,用于捕捉赌博算法的累积性能和即时性能。它确保每轮玩的手臂的后悔受到一个函数的限制,且随着(大的)轮数 t 单调递减,防止在有足够样本的情况下重新访问差的手臂。研究还提供了一些实现近 - 线性赌博机的噪声自适应置信区间及其在贝叶斯优化中的应用
在线学习中通过与现有方法相比展示出更好或相当的性能,解决了适应未知噪声水平的问题,并提出了一种新的置信度集合与方差自适应方法。
- ICLR固定预算差分私有最佳臂辨识
在差分隐私约束下,研究固定预算探索期的线性赌臂问题,通过最大绝对确定性原则构建满足差分隐私约束的策略,得到其错误概率的上限和下限,并展示其与赌臂问题复杂性、亚最优的臂差异和差分隐私参数相关的指数级衰减特性。此外,该研究还提供了独立感兴趣且对 - 约束线性赌臂问题的凸方法
近年来,与人类不断互动的现实世界安全关键系统中的强盗优化引起了极大关注。本文提出了一个综合性研究,重点研究了安全线性强盗算法的计算方面,通过引入凸规划工具创建了计算效率高的策略。具体而言,我们首先对安全线性强盗问题的最优策略进行了特征化,并 - 异步联邦赌臂纯探索
我们研究了多臂赌博机和线性赌博机的联邦纯探索问题,在该问题中, M 个代理通过与中央服务器通信来合作地识别最佳臂。为了增强算法对延迟和代理不可用性的鲁棒性,我们提出了第一个用于固定置信度的联邦异步多臂赌博机和线性赌博机算法。我们的理论分析表 - 具备鲁棒性的线性赌臂机算法的 A/B 测试与最佳臂识别
我们研究了在线线性赌臂问题中的固定预算最佳臂识别问题,并提出了一种能够在非稳态环境下稳健识别的算法。
- 线性赌博机中的即时模型选择
在线学习在模型选择时可以通过对线性赌博机进行全信息反馈来改进性能,从而在 M 个模型中具有对数级的依赖性,而不需要先验知识或纯探索阶段。
- 对数贝叶斯遗憾界
研究提出了贝叶斯奖励机制的有限时间对数遗憾度的边界及其应用,并发现了这些权重实际上可以加强已知的上界。
- ICML线性背景和组合行动激励探索
本文章主要研究了激励式赌博探索中的贝叶斯激励兼容问题,探讨了线性赌博的 Thompson 抽样算法和半赌博模型下的初始数据收集阶段的样本复杂度问题。
- 遗憾最小化的帕累托前沿识别
该文介绍了一种 PFILin 算法,可同时有效地识别帕累托前沿和减少遗憾,并证明了其样本复杂度是最优的。
- 组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析
本文提出了 Follow The Regularized Leader (FTRL) 算法并应用于在线学习中,通过分离延迟反馈成本和赌博反馈成本,得出了在三种不同的情况下的新结果,包括组合半赌博、带延迟的对抗 Markov 决策过程以及带权 - 高维和低秩张量赌博机
TOFU 算法研究了一个基于张量表示的线性赌博模型,其中系统参数和行动由张量表示,特别关注未知系统张量为低秩张量的情况。它首先利用灵活的张量回归技术估计与系统张量相关联的低维子空间,然后利用这些估计将原始问题转化为具有系统参数范数约束的新问 - 最佳模型选择
本文研究带有嵌套策略类别的赌场情境中的模型选择问题,旨在获得同时具备敌对和随机(“双赢”)的高概率遗憾保证。我们的方法要求每个基本学习器都带有可能或不可能持续的候选遗憾边界,同时,我们的元算法根据保持基本学习器的候选遗憾边界平衡的时间表播放 - 无范数偏见的线性赌博机
本文提出了两种不需要先验知识的新算法,一种针对较小的变动武器集,另一种针对固定武器集,其悔恨界仅仅受到次要影响。
- MM截断 LinUCB 算法用于随机线性赌臂问题
研究此论文中的上下文臂带,其中上下文是独立且恒定分布的 d 维随机向量,期望回报在臂参数和上下文中都是线性的;提出了一种截断版的 LinUCB 算法,称为 Tr-LinUCB,其在截断时间 S 之前遵循 LinUCB,在之后进行纯粹的开发, - 改进方差自适应线性赌博机和无时序线性混合马尔可夫决策过程的遗憾分析
本篇论文研究在线学习中的方差自适应算法,提出了适用于线性赌臂机以及线性混合马尔可夫决策过程的遗憾界分析,该方法在未知方差的情况下,能够实现 Regret 的拟多项式算法复杂度降低。
- 稀疏线性赌博机的信息引导采样
本文提出了一种基于信息定向抽样 (IDS) 的信息论贝叶斯遗憾界,在计算上能够高效地实现稀疏 IDS,通过数值实验表明相对于几个基线算法,稀疏 IDS 有明显的遗憾减少。
- 高维实验设计与核赌博机
本研究提出了一种避免连续概率分布到离散分配转化中需要基于维度的限制的舍入过程,以实现线性实验设计和内核化赌博机方面的最优解的研究。
- ICML具有次线性时间复杂度的线性赌博机算法
本篇论文提出了 2 种线性 bandits 算法,并利用最大内积搜索问题求解臂的选择,从而解决了针对极大臂数和缓慢变化的应用困难,扩展了现有的近似最大内积搜索的求解算法并实现了子线性复杂度及减小了损失。应用于在线学习问题中,该算法时间复杂度 - 线性赌博机中的 Pareto 最优模型选择
本文是一篇关于线性臂选模型选择的研究,提出了一种 Pareto 最优算法,能实现基于已知维度的较小假设集来平衡探索和开发,并且能够匹配模型选择问题的最低界限。