设计考虑了存在网络结构情况下对多臂赌博问题的解决方案,提出两个基于网络结构的策略,并在真实社交网络和路由网络的数据上测试,证明相比于现有策略获得了更多的好处。
Apr, 2017
本文探讨了一种对抗性在线学习情境,其中决策者可以在每个阶段选择一个行动,并观察到给定行动的奖励,同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法,这些算法依赖于非平凡的图论信息反馈结构特性。
Jun, 2011
探讨传统的两臂赌博问题的扩展,其中决策者在选择拉动哪个手臂之前可以访问一些信息,在不同的设置中找到能够达到可接受水平的规则和构造渐近最优自适应方案以实现这些规则。
Jan, 2005
提出一种算法来解决具有图反馈和一般函数空间的随机情境赌博问题,该算法适应底层图结构和奖励差距,为这种随机情境设定提供了一个依赖于差距的上界,改进了遗留问题,并通过数值实验验证了计算效率和 regret 上界的有效性,推动了具有图反馈的随机情境赌博领域的发展。
Aug, 2023
本论文提出了一种针对具有线性奖励的隐藏马尔可夫赌博问题的模型,基于结构性侧面信息,能在凸多面体动作集的情况下恢复隐藏状态并保持对数遗憾。
Oct, 2019
本文介绍了一种新颖的决策模型,以多臂老虎机框架为基础分析社交网络中的学习和决策过程。通过观察邻居的行动和得到的回报,个体可以最小化自己的后悔,我们提供了这种情况下的算法,无论是确定性还是对抗性的多臂老虎机模型,这些算法都是最优的(除去对数因子),并且可以用于社交网络中的自私智能体的近似纳什均衡。
本文研究了多臂赌博机问题在网络上的去中心化协作,采用加速一致性过程来计算所有智能体对每个臂的平均奖励,该算法采用上置信区间来决策,能够达到更好的回归界,同时不需要过多的底层网络信息。
Oct, 2018
本文研究了协作在线学习的方法,特别关注于使用多臂老虎机游戏对社交网络中的一组代理进行协作的情况,并对其使用的不同算法进行了遗憾分析。我们发现,单个代理学习策略的自然扩展在网络设置下表现不佳,我们提出了一类策略,并证明其在网络环境中容易遭受大量遗憾。同时,我们也提出了基于网络结构的学习算法,并在拥有不同拓扑结构的网络上进行了实验。
Feb, 2016
介绍了一种解决在线推荐系统中面临的延迟反馈和非静态环境下,如何利用中间信号解决长期行为稳定性问题的计算机算法,并利用 UCRL 算法提出了一个能够在非静态延迟环境中学习的方法。
Jun, 2020
提出了一个非平稳随机 bandit 模型及其评估算法,对比了该算法和 UCB 方法的优越性,从而能够有效地解决音乐推荐中的问题。