- 线性赌臂机的基于索引最小经验分歧的算法
该论文介绍了一种名为 LinIMED 算法的 IMED 算法的线性版本,证明其在上下文情境与线性收益的情况下具有 $\widetilde {O}(d\sqrt {T})$ 的最优上限遗憾,并通过大量实证研究证明 LinIMED 和其变种在某 - CVPR连续学习中的自适应记忆回放
基于丰富的记忆资源和训练效率的重视,我们引入了一种适应性记忆回放的框架来解决不断学习问题,通过多臂赌博机问题的方法来动态选择训练数据,从而在保持高性能的同时减少了遗忘达 10%。
- 使用 zk-SNARKs 进行隐私保护的 UCB 决策过程验证
本研究介绍了 zkUCB 算法,通过使用零知识简明互动知识论证(zk-SNARKs)来增强上限置信界(UCB)算法,从而在保护数据和算法参数隐私的同时确保 UCB 的可验证性。实验证明了 zkUCB 在决策过程中减少信息熵,通过巧妙的量化位 - 奖励驱动的非平稳随机赌博机的探索
为具有非平稳奖励分布的多臂赌博问题研究激励探索,其中玩家探索贪心选择以外的臂部时获得补偿,并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境:突变和连续变化,并提出相应的激励探索算法。我们表明,所提出的算法在时间上实现了亚线性的遗憾和补 - 具有弃权的多臂赌博机
我们介绍了多臂赌博问题的一种新颖扩展,它包括一个额外的战略要素:弃权。在这个增强的框架中,智能体不仅在每个时间步骤中被要求选择一个臂,还可以选择在观察之前放弃接受随机瞬时奖励。当选择放弃时,智能体将遭受固定的后悔或获得保证的奖励。在这种增加 - 批处理多臂赌博机问题中的最佳臂识别
最近在许多实际场景中出现了多臂赌博问题,其中由于代理人等待反馈的时间有限,必须对臂进行批量抽样。这些应用包括生物实验和在线营销。当臂的数量很大而批次的数量很小时,问题进一步复杂化。我们考虑了批量多臂赌博问题中的纯探索。我们引入了一个通用的线 - 在线推荐中结合机制设计与强盗算法抗击标题党
我们研究了多臂赌博问题的战略变体,称为战略点击赌博问题。我们设计了一种激励感知的学习算法 UCB-S,该算法实现了在不确定性下激励期望的臂行为,并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持,证实了我们 - 少探索即可
基于多臂赌博问题,通过引入调整的奖励项,考虑任务的难度,该研究提出的 UCB^τ 算法在全面的后悔和风险分析中被验证出具有理论上的强大性能,通过与标准 UCB 算法和 Thompson Sampling 算法在合成数据集上的比较评估,UCB - 基于模块的自适应蒸馏用于多模态基础模型
通过跟踪个别模块的贡献,我们提出了一种改进的 Thompson 抽样算法 OPTIMA,用于解决模型更新导致的模块贡献的非静态性,以最大化总体贡献。
- 估计和激励带有隐藏回报的不完美知识代理
研究探讨了自私学习代理和学习主体之间的重复逆向选择博弈,代理通过解决多臂赌博机问题来最大化其预期奖励和激励,主体则在保持一致性估计代理的未知奖励与通过提供自适应激励最大化自身效用之间进行权衡。
- KDD不耐烦赌徒:无需延迟的长期优化
在在线平台中,推荐系统是一个普遍存在的功能,越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务,将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡:等待全部奖励可用可能需要几个星期,从而影 - 在在线分配中平衡价格与数据质量以实现公平
本文探讨了在不观察个体保护属性的情况下,使用不同质量的数据源估算这些属性以降低公平惩罚的在线分配问题,并提出了一种在多臂赌博问题的框架下同时解决两个问题的算法,该算法可以适应多种不同的公平概念,并且在一些情况下可以学习使用的估计值。
- 具有异构奖励的分散随机分布的多智能体多臂赌博机
研究了去中心化多智能体多臂赌博问题,使用随机图来优化整个系统的综合悔恨度,引入了新的算法框架,其中包含加权技巧和上置信边界方法,算法具有较好的鲁棒性,并且考虑了图随机性,同时给出了不同命题下的悔恨度的上限。
- 有限精度采样赌博机中的最佳臂识别
研究了多臂赌博机问题中学习者在选择臂时精度受限的变体,并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置,并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。
- 带虚拟协助代理的汤普森抽样
文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用 Thompson 抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。
- ICLR在线低秩矩阵补全
本文研究在线低秩矩阵完成问题,提出了一个基于探索 - 利用策略及用户聚类技术的 OCTAL 方法,可以在多项臂赌博机问题的基础上获取 $ O ({m polylog} (M+N) T^{2/3})$ 的遗憾,并在 Rank-1 情况下得到 - 在最大化收益的同时减少不平等:改进赌博算法的紧密任何时刻保证
研究改进多臂老虎机(IMAB)问题在未来奖励不确定的情况下,如何使决策者在考虑潜在长期回报时最大化当前累计奖励,并提出了一种算法来解决此问题,并证明其近似最优。
- 通过观察和学习世界的运作,发现利用 ' 赌博式 ' 选择进行规划的生活技能
该论文提出了一种利用历史交互观察和学习以合成抽象技能的规划代理的新方法,该方法基于马尔科夫状态空间模型,利用未知前提条件下的行动集合,并将技能公式化为基于当前状态提出行动计划的高层抽象策略,以此实现在嘈杂环境下自动学习稳健的高级技能。
- AAAI最大 - 最小分组赌博机
介绍了一种多臂赌博机问题,称为最大最小分组赌博机问题,其中将赌臂分组,并旨在找到最差赌臂平均回报最高的组;提出两种基于连续淘汰和鲁棒优化的算法,并导出保证找到最优或接近最优组的样本数的上界,以及一个独立于算法的下界。探讨了各种相关情况下上下 - 在线决策问题中关于对抗性破坏的最佳鲁棒性
论文研究了预测问题和多臂老虎机问题两个具有序列决策的基本问题。特别地,我们关注当对手可能篡改损失时的随机机制,并研究能够实现的鲁棒性水平。本文的主要贡献在于表明,最佳鲁棒性可以通过对所涉及的污染量的平方根依赖来表达。此外,我们还提供了下限,