利用高斯马尔可夫随机场的土匪群

Mar, 2017

利用高斯马尔可夫随机场的土匪群

Horde of Bandits using Gaussian Markov Random Fields

Sharan Vaswani, Mark Schmidt, Laks V. S. Lakshmanan

TL;DR本研究提出了一种GOB模型的GMRF扩展方法，结合Thompson采样算法，解决了通过传递信息来实现推荐系统等中大规模难题，能够在不需要聚类假设的情况下扩展到更大的图形，并提出了一个学习图形的启发式方法。

Abstract

The gang of bandits (GOB) model \cite{cesa2013gang} is a recent contextual bandits framework that shares information between a set of bandit problems, related by a known (possibly noisy) graph. This model is useful in problems like →

发现论文，激发创造

基于线性回报的情境型贝叶斯-汤普森抽样算法

本文设计和分析了一种基于贝叶斯思想的Thompson Sampling算法泛化版本，用于解决带有线性收益函数的随机上下文多臂老虎机问题，同时提供了该算法的第一理论保证，得到了最佳遗憾保证。

Sep, 2012

一伙强盗

本文提出了一种新的算法方法用于解决基于社交网络结构的Bandit问题，该算法对每个网络节点（用户）分配了一个Bandit算法，并允许其与相邻节点共享信息，与传统Contextual Bandit方法相比，实验结果表明该算法在预测性能方面有显著提高。

Jun, 2013

广义线性赌臂问题的高效算法：在线随机梯度下降和汤普森抽样

本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法，它使用单步SGD更新来利用过去的信息并使用汤普森抽样实现探索，能够在探索与利用之间取得平衡，在合成和实际数据集上始终优于现有算法，其总时间复杂度为T和d的线性比例，其中T是总轮次数，d是特征数量，并实现了O（T）的遗憾，其中T是回合数。

Jun, 2020

组合半臂老虎机的汤普森抽样的统计效率

本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用Beta先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析，进而找到了这两种分布情况下的算法解决方案，从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。

Jun, 2020

基于集群武器的汤普森抽样算法

该论文提出了基于多级 Thompson 抽样方案的算法，用于解决具有线性预期收益的上下文相关多臂赌博机及其聚类武器的问题。同时，理论和实证表明，利用特定的集群结构可以显著改善遗憾并降低计算成本。

Sep, 2021

在线聚类误指定用户模型的赌博机

提出了聚类多臂老虎机在用户模型未正确规定的情况下的问题，设计了两种鲁棒性算法，能适应不准确的用户偏好评估和模型错误导致的聚类问题，证明了我们算法的遗憾上限。实验证明我们对之前算法的优越性。

Oct, 2023

基于贝叶斯设置的组合高斯过程赌臂问题：理论与能效导航应用

研究探究了具有时间变化的臂可用性的组合高斯过程半-算法问题，提出了三种基于高斯过程的算法(即GP-UCB、Bayes-GP-UCB和GP-TS)的贝叶斯遗憾界，对综合合成和实际路网进行了实验研究，并发现上下文高斯过程模型在先验信息的信息度量上的遗憾值较低。

Dec, 2023

基于信息论的噪声上下文随机赌博机的汤普森抽样算法的遗憾分析

我们研究了一种随机情境线性赌博机问题，代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略，可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策略。我们在贝叶斯框架下引入了一种基于高斯情境噪声的汤普森采样算法。采用信息论分析，对于神谕的行动策略，我们证明了该算法的贝叶斯遗憾。我们还将这个问题扩展到当代理人在接收到奖励之后，以一定延迟观察到真实情境的情景，并展示了延迟真实情境会导致更低的贝叶斯遗憾。最后，我们通过与基准算法进行实证研究，展示了所提出算法的性能。

Jan, 2024

具有图反馈的随机上下文臂机：从独立数到MAS数

我们研究了具有图反馈的背景下的情景赌博问题，发现了相关概念与学习限制的关系，并提供了优化算法，以及表明针对情景赌博问题的统计复杂性在许多情况下可以由最大无环子图数完全刻画。

Feb, 2024

基于强盗反馈的聚类与分布匹配的通用框架

本研究解决了在强盗反馈下的聚类与分布匹配问题，提出了一个在线算法以最小化平均臂拉取次数，同时确保误差概率不超过预设值$\delta$。研究的关键发现是，所提算法的平均拉取次数与非渐近下界相匹配，且存在新的界限揭示了该算法平均拉取次数收敛基本极限的速度。

Sep, 2024