部分揭示单位区间图上的多臂赌博机

MMFeb, 2018

部分揭示单位区间图上的多臂赌博机

Multi-Armed Bandits on Partially Revealed Unit Interval Graphs

Xiao Xu, Sattar Vakili, Qing Zhao, Ananthram Swami

TL;DR研究了具有相似性和不相似性的测臂的随机多臂赌博问题，并提出了一种基于在线汇总奖励观察结果的离线行动空间缩减及在线聚合的通用两步学习结构，旨在充分利用侧面信息的拓扑结构。验证了学习策略的计算效率和顺序最优性，无论是在行动空间大小还是时间长度上。

Abstract

A stochastic multi-armed bandit problem with side information on the similarity and dissimilarity across different arms is considered. The action space of the problem can be represented by a unit interval graph (

stochastic multi-armed bandit problem unit interval graph offline reduction online aggregation topological structure

发现论文，激发创造

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

具有相似臂的图反馈贝叶斯打赏

我们研究了具有图反馈的随机多臂赌博机问题，建立了这种新颖反馈结构的遗憾下界，并引入了两种基于 UCB 的算法：具有问题独立遗憾上界的 D-UCB 和具有问题相关上界的 C-UCB。借助相似性结构，我们还研究了臂的数量随时间增加的情况，并提供了这两种算法的遗憾上界，并讨论了遗憾上界与臂均值分布的次线性关系。最后，我们进行实验证实了理论结果。

May, 2024

具有相似性信息的情境赌博机

本文考虑相似度信息在上下文赌博中的应用，设计了基于自适应分区调整的更有效算法，用于在广告投放等领域中解决相应问题。

Jul, 2009

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

具有网络干扰的多臂赌博机

通过研究在线干预实验中的干扰问题，我们提出了基于线性回归算法的多臂赌博机策略，以最小化后悔并实现低后悔的任务分配。

May, 2024

带干扰的多臂赌博机

在当代在线平台中，干扰实验面临重大挑战。本研究介绍了具有干扰的多臂赌博机问题，应用集群随机化策略来达到最优期望后悔值，并得出高概率边界与实验单元数 N 无关。

Feb, 2024

通过核化多臂赌博机进行分布式优化

该研究论文提出了一种基于分布式优化和多臂赌博算法 (Multi-armed bandit) 的全分散算法 (Multi-agent IGP-UCB)，以最小化代理间的遗憾值，并在保护隐私的同时提供了改进的性能。

Dec, 2023

带边观察的赌徒问题

探讨传统的两臂赌博问题的扩展，其中决策者在选择拉动哪个手臂之前可以访问一些信息，在不同的设置中找到能够达到可接受水平的规则和构造渐近最优自适应方案以实现这些规则。

Jan, 2005

不确定性下的奖励最大化：利用网络的相关观察

设计考虑了存在网络结构情况下对多臂赌博问题的解决方案，提出两个基于网络结构的策略，并在真实社交网络和路由网络的数据上测试，证明相比于现有策略获得了更多的好处。

Apr, 2017

从强盗到专家：浅谈旁观价值

本文探讨了一种对抗性在线学习情境，其中决策者可以在每个阶段选择一个行动，并观察到给定行动的奖励，同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法，这些算法依赖于非平凡的图论信息反馈结构特性。

Jun, 2011