利用高斯马尔可夫随机场的土匪群
本文设计和分析了一种基于贝叶斯思想的Thompson Sampling算法泛化版本,用于解决带有线性收益函数的随机上下文多臂老虎机问题,同时提供了该算法的第一理论保证,得到了最佳遗憾保证。
Sep, 2012
本文提出了一种新的算法方法用于解决基于社交网络结构的Bandit问题,该算法对每个网络节点(用户)分配了一个Bandit算法,并允许其与相邻节点共享信息,与传统Contextual Bandit方法相比,实验结果表明该算法在预测性能方面有显著提高。
Jun, 2013
本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法,它使用单步SGD更新来利用过去的信息并使用汤普森抽样实现探索,能够在探索与利用之间取得平衡,在合成和实际数据集上始终优于现有算法,其总时间复杂度为T和d的线性比例,其中T是总轮次数,d是特征数量,并实现了O(T)的遗憾,其中T是回合数。
Jun, 2020
本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用Beta先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析,进而找到了这两种分布情况下的算法解决方案,从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。
Jun, 2020
该论文提出了基于多级 Thompson 抽样方案的算法,用于解决具有线性预期收益的上下文相关多臂赌博机及其聚类武器的问题。同时,理论和实证表明,利用特定的集群结构可以显著改善遗憾并降低计算成本。
Sep, 2021
提出了聚类多臂老虎机在用户模型未正确规定的情况下的问题,设计了两种鲁棒性算法,能适应不准确的用户偏好评估和模型错误导致的聚类问题,证明了我们算法的遗憾上限。实验证明我们对之前算法的优越性。
Oct, 2023
研究探究了具有时间变化的臂可用性的组合高斯过程半-算法问题,提出了三种基于高斯过程的算法(即GP-UCB、Bayes-GP-UCB和GP-TS)的贝叶斯遗憾界,对综合合成和实际路网进行了实验研究,并发现上下文高斯过程模型在先验信息的信息度量上的遗憾值较低。
Dec, 2023
我们研究了一种随机情境线性赌博机问题,代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略,可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策略。我们在贝叶斯框架下引入了一种基于高斯情境噪声的汤普森采样算法。采用信息论分析,对于神谕的行动策略,我们证明了该算法的贝叶斯遗憾。我们还将这个问题扩展到当代理人在接收到奖励之后,以一定延迟观察到真实情境的情景,并展示了延迟真实情境会导致更低的贝叶斯遗憾。最后,我们通过与基准算法进行实证研究,展示了所提出算法的性能。
Jan, 2024
我们研究了具有图反馈的背景下的情景赌博问题,发现了相关概念与学习限制的关系,并提供了优化算法,以及表明针对情景赌博问题的统计复杂性在许多情况下可以由最大无环子图数完全刻画。
Feb, 2024
本研究解决了在强盗反馈下的聚类与分布匹配问题,提出了一个在线算法以最小化平均臂拉取次数,同时确保误差概率不超过预设值$\delta$。研究的关键发现是,所提算法的平均拉取次数与非渐近下界相匹配,且存在新的界限揭示了该算法平均拉取次数收敛基本极限的速度。
Sep, 2024