受通信限制的加性高斯噪声下赌博机问题
通过多臂赌博机问题和高斯过程来解决在优化一个未知、嘈杂及难以评估的函数的问题。我们在这个问题上得到了遗憾界,建立了高斯过程优化和实验设计之间的联系。通过实验,我们证明了GP-UCB可以优于其他启发式高斯过程优化方法。
Dec, 2009
本文考虑如何基于无噪声样本和Bandit反馈来顺序优化黑盒函数,提出了一种新的Gaussian 过程 Bandit 优化算法,并给出了算法无关的简单遗憾和累计遗憾的下界,进一步阐述了随机波动和目标函数的连续性对累计遗憾和简单遗憾的影响。
May, 2017
本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW,通过运行 MW 方法获得最佳效果,同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。
Sep, 2019
介绍了一个分布式算法来解决多臂赌博机问题,通过异步交换较少的比特数,在不进行样本交换的情况下,仅通过传递臂ID来维护代理之间的合作;文中提出的算法可以将每个代理的后悔最小化,并将通信复杂度降至$O(logT)$,与不进行合作的方案相比,本算法能够显著降低每个代理的后悔。
Oct, 2019
本文探讨多个代理协作解决随机k-臂赌博机问题的策略。我们提出了一种名为有限通信协作策略-上限置信区间(LCC-UCB)的新算法,可同时具有较少通信成本及较少累积遗憾。将该策略扩展至稀疏图,我们提出了LCC-UCB-GRAPH,它在最大度数为$K_G$和直径为$D$的稀疏图上具有更高的表现。
Feb, 2021
本研究通过优化分布式算法中奖励的传递来解决通信瓶颈问题,并提出了一种新的基于泛化奖励量化算法QuBan的通信高效的多臂老虎机算法,该算法只需要每次发送3位比特就可以保持与传统算法相同的后悔限制。
Nov, 2021
本文探讨了协作强盗问题在现实世界通信环境下的三种典型情景,并提出了相应的去中心化算法来实现可比性能并且保证产生小组遗憾次数接近最优解,同时提出了对于完美通信情况下的改进算法,最后给出了群体遗憾的最紧密的网络相关极小极大下限。
Nov, 2021
我们研究了一种随机情境线性赌博机问题,代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略,可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策略。我们在贝叶斯框架下引入了一种基于高斯情境噪声的汤普森采样算法。采用信息论分析,对于神谕的行动策略,我们证明了该算法的贝叶斯遗憾。我们还将这个问题扩展到当代理人在接收到奖励之后,以一定延迟观察到真实情境的情景,并展示了延迟真实情境会导致更低的贝叶斯遗憾。最后,我们通过与基准算法进行实证研究,展示了所提出算法的性能。
Jan, 2024
提出了基于一种不精确预算方法的智能多臂赌博机构建UCB型算法的新方法;推导出了相应于最优化方法的收敛速度的遗憾界;提出了一种新的算法Clipped-SGD-UCB,并从理论和实证角度展示了在奖励中存在对称噪声的情况下,我们可以达到O(logT√KTlogT)的遗憾界,而不是当奖励分布满足E[X∈D][|X|^(1+α)]≤σ^(1+α)(α∈(0,1])时,即表现得比普遍的重尾赌博机下界所假设的要好。此外,即使奖励分布没有期望,也能保持相同的界限,即当α<0时。
Feb, 2024