在线用户欺诈检测与后悔最小化

Oct, 2023

Online Corrupted User Detection and Regret Minimization

Zhiyong Wang, Jize Xie, Tong Yu, Shuai Li, John C.S. Lui

TL;DR通过在线学习算法和用户关系来检测并识别潜在被破坏用户的研究。

Abstract

In real-world online web systems, multiple users usually arrive sequentially into the system. For applications like click fraud and fake reviews, some users can maliciously perform corrupted (disrupted) behaviors to trick the system. Therefore, it is crucial to design efficient online learnin

online learning corrupted users bandit algorithms user relations detection accuracy

发现论文，激发创造

上下文串联赌博机的在线聚类

本研究基于在线聚类算法探讨了上下文串联赌博机算法的新领域，针对用户间的聚类问题进行了广泛研究，并提出了一种新的算法 CLUB-cascade。实验显示，该算法可以有效地解决网络系统的信息推荐问题。

Nov, 2017

在线聚类误指定用户模型的赌博机

提出了聚类多臂老虎机在用户模型未正确规定的情况下的问题，设计了两种鲁棒性算法，能适应不准确的用户偏好评估和模型错误导致的聚类问题，证明了我们算法的遗憾上限。实验证明我们对之前算法的优越性。

Oct, 2023

从不完美的人类反馈中学习：一次抗腐败对决的故事

研究论文探讨了从不完美人类反馈学习的问题，通过将人类反馈的不完美性视为对用户效用的不可知修正，提出了改进的对抗式竞争学习模型。通过证明最低遗憾下界并设计具有稳健性的梯度算法，揭示了在不同程度不完美的情况下，梯度算法在效率与稳健性间的平衡关系，并通过实验验证了其实际应用价值。

May, 2024

在线决策问题中关于对抗性破坏的最佳鲁棒性

论文研究了预测问题和多臂老虎机问题两个具有序列决策的基本问题。特别地，我们关注当对手可能篡改损失时的随机机制，并研究能够实现的鲁棒性水平。本文的主要贡献在于表明，最佳鲁棒性可以通过对所涉及的污染量的平方根依赖来表达。此外，我们还提供了下限，表明上述遗憾边界是紧的。最后，对于多臂老虎机问题，我们还提供了一个近似紧密的下限。

Sep, 2021

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

本文提出一种在线学习算法 BanditQ，基于队列理论和在线学习相结合，实现公平在线预测，并在信息完整的情况下，达到目标约束，同时实现 $O (T^{3/4})$ 的损失率。

Apr, 2023

腐败鲁棒离线强化学习与人类反馈

我们设计了一种新颖的对抗性鲁棒性离线强化学习方法，以处理具有不同数据生成分布覆盖假设的数据污染情况，通过学习奖励模型和置信区间，然后在置信区间内学习一个悲观的最优策略，实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。

Feb, 2024

在线赌博游戏聚类算法的改进

本研究提出了一种在线聚类的赌博算法，通过允许用户频率的非统一分布，并使用简单的集合结构来表示聚类，提出了一种更有效的算法，并证明了该算法的遗憾界可以不考虑用户的最小频率。在合成和真实数据集的实验中，新算法相对于现有方法具有一定的优势。

Feb, 2019

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

具备反馈延迟的平滑在线凸优化的鲁棒学习

我们研究了一种具有多步非线性切换成本和反馈延迟的挑战性平滑在线凸优化（SOCO）形式，提出了一种新颖的机器学习（ML）增强的在线算法，名为 Robustness-Constrained Learning（RCL），它通过受限投影将不受信任的 ML 预测与可信的专家在线算法结合起来，以增强 ML 预测的鲁棒性。具体而言，我们证明了 RCL 能够对于任何给定的专家保证（1+λ）竞争力，其中 λ>0，同时以鲁棒性感知的方式明确地训练 ML 模型以提高平均性能。重要的是，RCL 是第一个在多步切换成本和反馈延迟情况下具有可证明的鲁棒性保证的 ML 增强算法。我们以电动交通的电池管理为案例研究，展示了 RCL 在鲁棒性和平均性能方面的改进。

Oct, 2023