不确定性下的奖励最大化:利用网络的相关观察
本论文研究了一种称为图赌博机的多臂赌博机扩展问题,提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB,并证明其能够达到理论最优的遗憾界,数值实验结果表明该算法优于其他基准算法。
Sep, 2022
该研究通过开发一种完全分散的鲁棒上置信界算法,将信息混合步骤与不一致和极端值的截断步骤结合起来,以恢复分散合作多臂赌博中的有效行为,提高正常代理的表现。该算法在遗憾方面不劣于单代理 UCB1 算法,并且所有正常代理的累积遗憾严格优于非合作情况。实验证实了这一框架的优点。
Oct, 2023
本文探讨了一种对抗性在线学习情境,其中决策者可以在每个阶段选择一个行动,并观察到给定行动的奖励,同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法,这些算法依赖于非平凡的图论信息反馈结构特性。
Jun, 2011
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
Jun, 2024
本文研究了随机预算多臂赌博问题,并提出了一种名为 ω-UCB 的新的上置信界(UCB)采样策略,该策略使用了不对称置信区间,并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。
Jun, 2023
本文研究了多臂赌博机问题在网络上的去中心化协作,采用加速一致性过程来计算所有智能体对每个臂的平均奖励,该算法采用上置信区间来决策,能够达到更好的回归界,同时不需要过多的底层网络信息。
Oct, 2018
本文提出了一种适用于多臂赌博机问题的解决方案,只需要以线性时间复杂度存储未知参数,可以处理一般的掌握参数相关性的问题,并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。
Nov, 2010
研究了去中心化多智能体多臂赌博问题,使用随机图来优化整个系统的综合悔恨度,引入了新的算法框架,其中包含加权技巧和上置信边界方法,算法具有较好的鲁棒性,并且考虑了图随机性,同时给出了不同命题下的悔恨度的上限。
Jun, 2023
本文研究了协作在线学习的方法,特别关注于使用多臂老虎机游戏对社交网络中的一组代理进行协作的情况,并对其使用的不同算法进行了遗憾分析。我们发现,单个代理学习策略的自然扩展在网络设置下表现不佳,我们提出了一类策略,并证明其在网络环境中容易遭受大量遗憾。同时,我们也提出了基于网络结构的学习算法,并在拥有不同拓扑结构的网络上进行了实验。
Feb, 2016