在线聚类误指定用户模型的赌博机

Oct, 2023

在线聚类误指定用户模型的赌博机

Online Clustering of Bandits with Misspecified User Models

Zhiyong Wang, Jize Xie, Xutong Liu, Shuai Li, John C.S. Lui

TL;DR提出了聚类多臂老虎机在用户模型未正确规定的情况下的问题，设计了两种鲁棒性算法，能适应不准确的用户偏好评估和模型错误导致的聚类问题，证明了我们算法的遗憾上限。实验证明我们对之前算法的优越性。

Abstract

The contextual linear bandit is an important online learning problem where given arm features, a learning agent selects an arm at each round to maximize the cumulative rewards in the long run. A line of works, called the clustering of bandits (CB), utilize the collaborative effect over

contextual linear bandit clustering of bandits misspecified user models robust cb algorithms regret upper bounds

发现论文，激发创造

聚类线性情境强化学习与背包

本文研究了集群上下文强化学习，其中回报和资源消耗是集群特定线性模型的结果，算法无法知晓各个元素的集群成员关系。通过拉动一根臂在一个时间段内会产生回报和对于多个资源的消耗，并且任何资源的总消耗超过约束条件会导致算法终止。因此，最大化总回报需要学习回报、资源消耗和集群成员关系的模型。我们提出了一种算法，在时间段的数量上具有亚线性的遗憾，并且不需要访问所有的臂。特别地，我们证明只需对随机选择的一部分臂执行一次聚类即可达到这个结果。为了实现这个结果，我们结合了计量经济学和约束条件强化学习的文献中的技术。

Aug, 2023

上下文串联赌博机的在线聚类

本研究基于在线聚类算法探讨了上下文串联赌博机算法的新领域，针对用户间的聚类问题进行了广泛研究，并提出了一种新的算法 CLUB-cascade。实验显示，该算法可以有效地解决网络系统的信息推荐问题。

Nov, 2017

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

关于上下文相关赌博机聚类的研究

CAB 算法是一种协同推荐算法，它采用了上下文相关的用户邻域估计机制，能够同时进行探索利用平衡和协同步骤，证明了具有不同数据假设的后悔边界，并在生产和真实数据集上验证了 CAB 的显着预测性能优势。

Aug, 2016

广义高斯多臂赌博机中的人类决策建模

本文提出了一个形式化的模型，该模型可以最大化人类决策过程在多臂赌博问题中的表现，并使用贝叶斯推理估算回报值，得出了对多臂赌博问题的标准解决方案，以及在图中的解决方案，其中开发了 UCL 算法，它实现了对数累积期望遗憾并表现出良好的性能。

Jul, 2013

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

线性赌博机误设

本研究考虑了线性多臂老虎机问题中的在线学习问题，并提出了一种新的算法，该算法包括一个线性假设检验和 OFUL 或 UCB 算法的决策。该算法在完全线性情况下表现出 OFUL 的良好遗憾性能，在存在不稀疏偏差性质的错误规范模型上避免了线性遗憾现象，并且在综合数据实验中得到了一致的支持。

Apr, 2017

聚类多智能体线性赌博

研究了多智能体线性随机赌博问题的特定情况，称为聚类的多智能体线性赌博。提出了一种新颖的算法，在多个智能体之间有效合作以加快整体优化问题。通过在合成数据和真实数据上与最先进的算法进行经验评估，理论分析了后悔最小化问题和聚类质量，证明了我们方法的有效性：我们的算法显著改善了后悔最小化，并成功恢复了真实的聚类划分。

Sep, 2023

高维线性多臂赌博机与背包问题

研究如何在高维度环境下应用稀疏估计和在线学习算法改进上下文强化学习中的多臂老虎机与背包问题，通过联合在线估计和原始 - 对偶框架，控制背包容量，从而取得了特征维度对数级依赖的次线性遗憾，同时在数据贫瘠和数据丰富情况下实现了最优遗憾结果。

Nov, 2023

基于每个项目预算约束的在线协同过滤：阻塞协同强盗

设计了一个叫做 B-LATTICE（通过矩阵完成的被阻塞潜在臂选择的协作性乐透机制）的算法，通过满足预算限制并在用户之间进行协作，以最大化他们的累积奖励。在理论上，满足合理的潜在结构假设，对于具有 M 个用户，N 个臂，每个用户 T 轮和 C=O (1) 个潜在类别的问题，B-LATTICE 在预算约束为 B=O (logT) 的条件下，实现了每个用户的尽量减小后悔为 O (√(T (1+N/M)))。这是该问题的首个次线性后悔上界，当 B=T 时与极小后悔上界相匹配。实证上，我们证明了即使在 B=1 时，我们的算法也具有优越的性能。

Oct, 2023