基于每个项目预算约束的在线协同过滤：阻塞协同强盗

Oct, 2023

基于每个项目预算约束的在线协同过滤：阻塞协同强盗

Blocked Collaborative Bandits: Online Collaborative Filtering with Per-Item Budget Constraints

Soumyabrata Pal, Arun Sai Suggala, Karthikeyan Shanmugam, Prateek Jain

TL;DR设计了一个叫做 B-LATTICE（通过矩阵完成的被阻塞潜在臂选择的协作性乐透机制）的算法，通过满足预算限制并在用户之间进行协作，以最大化他们的累积奖励。在理论上，满足合理的潜在结构假设，对于具有 M 个用户，N 个臂，每个用户 T 轮和 C=O (1) 个潜在类别的问题，B-LATTICE 在预算约束为 B=O (logT) 的条件下，实现了每个用户的尽量减小后悔为 O (√(T (1+N/M)))。这是该问题的首个次线性后悔上界，当 B=T 时与极小后悔上界相匹配。实证上，我们证明了即使在 B=1 时，我们的算法也具有优越的性能。

Abstract

We consider the problem of \emph{blocked} collaborative bandits where there are multiple users, each with an associated multi-armed bandit problem. These users are grouped into \emph{latent} clusters such that the mean reward vectors of users within the same cluster are identical. Our goal is to design algorithms that maximize the →

blocked collaborative bandits latent clusters cumulative reward regret-optimal algorithms budget constraints

发现论文，激发创造

在线矩阵分解推荐的交替线性赌博机算法

本文提出了一种在线矩阵分解推荐算法，结合了线性赌博和交替最小二乘法，通过累积遗憾和平均累积 NDCG 评估算法性能，实验结果表明该算法在三个综合数据集和三个真实数据集上优于两个最先进的在线算法。

Oct, 2018

在线聚类误指定用户模型的赌博机

提出了聚类多臂老虎机在用户模型未正确规定的情况下的问题，设计了两种鲁棒性算法，能适应不准确的用户偏好评估和模型错误导致的聚类问题，证明了我们算法的遗憾上限。实验证明我们对之前算法的优越性。

Oct, 2023

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

聚类多智能体线性赌博

研究了多智能体线性随机赌博问题的特定情况，称为聚类的多智能体线性赌博。提出了一种新颖的算法，在多个智能体之间有效合作以加快整体优化问题。通过在合成数据和真实数据上与最先进的算法进行经验评估，理论分析了后悔最小化问题和聚类质量，证明了我们方法的有效性：我们的算法显著改善了后悔最小化，并成功恢复了真实的聚类划分。

Sep, 2023

在线低秩矩阵补全

本文研究在线低秩矩阵完成问题，提出了一个基于探索 - 利用策略及用户聚类技术的 OCTAL 方法，可以在多项臂赌博机问题的基础上获取 $ O ({m polylog} (M+N) T^{2/3})$ 的遗憾，并在 Rank-1 情况下得到 $O ({m polylog} (M+N) T^{1/2})$ 的近似率。

Sep, 2022

协同过滤赌博机

本文提出了一种自适应聚类技术，以探索 - 利用策略为基础，用于内容推荐系统中高动态性的推荐领域，该算法利用数据中的喜好模式，具有与协同过滤方法类似的优点，对中等规模的真实世界数据集进行了实证分析，表现出可扩展性和预测性能提高。

Feb, 2015

多用户多臂老虎机用于协调频谱接入

提出了两种多用户多臂赌博机算法框架，分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下，通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误，并能够处理用户数量随时间改变的动态问题。

Jul, 2018

聚类线性情境强化学习与背包

本文研究了集群上下文强化学习，其中回报和资源消耗是集群特定线性模型的结果，算法无法知晓各个元素的集群成员关系。通过拉动一根臂在一个时间段内会产生回报和对于多个资源的消耗，并且任何资源的总消耗超过约束条件会导致算法终止。因此，最大化总回报需要学习回报、资源消耗和集群成员关系的模型。我们提出了一种算法，在时间段的数量上具有亚线性的遗憾，并且不需要访问所有的臂。特别地，我们证明只需对随机选择的一部分臂执行一次聚类即可达到这个结果。为了实现这个结果，我们结合了计量经济学和约束条件强化学习的文献中的技术。

Aug, 2023

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013

基于级联赌博机的大规模推荐问题

本研究提出了两种基于线性推广的算法来解决级联赌博问题，主要应用在推荐系统中。通过对算法的评估，发现本文算法表现较为良好，且优于所有基准算法。

Mar, 2016