- KDD基于图神经赌博师的影响力最大化
利用神经 Bandit 算法解决基于未知传播网络的影响力最大化问题,在实时选择种子节点的同时,通过图卷积网络对影响者的预估奖励进行优化,从而在传播网络未知的情况下,在两个大型真实数据集上显著提高了传播效果。
- 基于自回归生成的后验采样
使用历史数据进行预训练的自回归模型,在新闻推荐任务中通过端到端微调预训练语言模型来处理新闻文章标题文本以提高性能,并在在线决策中展示了能够理解不确定性和主动收集信息以解决环境变化的新的学习算法框架。
- 具有均匀最后迭代保证的求解多臂赌博算法的近最优遗憾
该研究论文介绍了一种更强的性能度量方法,即统一最终迭代保证,用于捕捉赌博算法的累积性能和即时性能。它确保每轮玩的手臂的后悔受到一个函数的限制,且随着(大的)轮数 t 单调递减,防止在有足够样本的情况下重新访问差的手臂。研究还提供了一些实现近 - ICLR自适应遗憾在可能的情况下:只需两个查询
在线优化中,给出了强适应遗憾的准确查询和遗憾最优的贪心算法,同时给出了多臂赌博机和赌博凸优化的最优算法,并通过实证研究表明了在不稳定环境和下游任务中的卓越表现。
- 基于 LLMs 增强的上下文强化学习
通过将大型语言模型与情境赌博算法框架相融合,加强了对于情境的表示,提供更密集且更丰富的视角,初步结果表明这种方法的潜力,与传统赌博算法相比,在累积奖励上有显著改善,且减少了后悔。这种整合不仅展示了大型语言模型在强化学习中的能力,还为全新的情 - 高效且可解释的强化学习算法
在现代机器学习中,我们设计了一种既高效又可解释的强盗算法来解释模型的重要性。通过引入一种新的不确定性损失度量标准,我们量化了可解释性,并通过基于约束的最优设计提出了 CODE 算法,它是可解释的且能最大程度地减少不确定性。我们通过数值实验在 - 用于赌博游戏的近似信息最大化
基于熵最大化和自由能最小化的原理,提出一种新类的 Bandit 算法,通过最大化系统内关键变量的信息量近似来选择行动,该方法在经典 Bandit 设置中表现出较强的性能,并在高斯奖励的二臂 Bandit 问题上证明了渐近最优性,为进一步研究 - 在线用户欺诈检测与后悔最小化
通过在线学习算法和用户关系来检测并识别潜在被破坏用户的研究。
- 合作多智能体赌博机:优化个体懊悔并具有恒定通讯开销的分布式算法
合作多智能体多臂赌博算法中的通信策略,既实现了最优个体遗憾,又具有恒定的通信成本。
- 联邦多臂赌博机的奖励训练
本文提出了一种名为奖励教学的新颖概念,其中服务器通过隐式本地奖励调整来指导客户端向全局最优性靠拢。对于客户端无法修改现有协议的情况,作者提出了一种名为 Teaching-After-Learning(TAL) 的逐步方法,并通过开发技术方法 - 安全在线学习中未排名项目的探索与重新排名
本文提出了一种安全的在线学习排序算法,它利用了 Kullback-Leiblerupper 置信上界(KL-UCB)方法选择未排名的优质项目进行探索,并安全重新排序,从而改善长期收益而不影响用户体验。
- ICML平滑的非平稳赌博机
本文研究应用于在线决策中的两臂赌博机问题,其中臂的平均奖励是绝对阶数小于等于 β 的 Hölder 函数。我们展示了该问题平滑和非平滑情况的首个分离,提出了一种策略以 T^(3/5)遗憾为代价。同时,我们为任何整数 β≥1 证明了一个 T^ - AAAI在线决策的强鲁棒性测试
通过修改演员 - 评论家算法并推导一种新的测试过程,提出了一种对评论家错误规范化具有鲁棒性的修改型演员评论家算法,在移动医疗等领域能够根据用户数据制定个性化健康干预措施,并能协调数据收集和影响 app 性能之间的平衡。
- KDD电子商务盗匪地图
本文提供了一张结构化的 Bandit 算法映射图,帮助实践者通过有关奖励、行动和特征的关键决策点寻找相关实用的 Bandit 算法。
- 利用 M - 估计器对自适应收集数据进行统计推断
本论文通过理论分析,提出了一种基于 M - 估计量的方法,利用自适应算法(包括习得算法和最大似然算法)处理 bandit 算法采集的数据,进而构建了一种渐进有效的置信区间方法,可用于许多统计推断目标。
- AAAI通过有限数据验证拯救随机赌博机免受攻击
本文研究带有数据污染攻击的有界奖励情况下的强度攻击模型下的强盗算法,并提出了基于验证的机制以对抗此类攻击。此外,文章提出了 Secure-BARBAR 算法,其在有限验证次数的情况下能够显著降低攻击者造成的损失。
- ICML对抗性放缩赌博机
本研究研究了 “对抗缩放”,它是一个多臂老虎机模型,其中奖励有随机的和对抗性的组成部分。Despite 模型的相对随机性,我们展示了两种情况下大多数老虎机算法会遇到困难,同时,我们还展示了一种行动消除和一种镜像下降算法足够适应,能够对对抗性 - 带余量自助法探索赌博算法
提出了一种新的基于扰动的探索算法,称为残差引导探索(ReBoot),能够从概率角度揭示样本误差的分布特性,从而逃离次优解。实验结果表明,该算法在解决非有界奖励的固定赌博机问题时比现有算法更稳健,并表现出与 Thompson 采样方法相当的计 - 带附加信息的安全线性汤普森抽样
本文针对线性随机赌博机问题提出一种基于线性 Thompson 抽样的新型安全算法,通过引入线性安全约束,在与没有安全约束的情况下,展示了使得机器人有更好的性能表现的结果,并将其与基于 UCB 算法的安全算法进行了比较。
- 安全约束下的线性随机赌博机
本文提出了一种基于 UCB 策略的新算法 Safe-LUCB,用于解决多臂赌博问题中考虑安全限制的约束,该算法具有探索和利用两个阶段,并控制遗憾值增长,提供了一般遗憾上界及与最佳行动位置有关的问题相关遗憾上界。