在线用户欺诈检测与后悔最小化
本研究基于在线聚类算法探讨了上下文串联赌博机算法的新领域,针对用户间的聚类问题进行了广泛研究,并提出了一种新的算法 CLUB-cascade。实验显示,该算法可以有效地解决网络系统的信息推荐问题。
Nov, 2017
提出了聚类多臂老虎机在用户模型未正确规定的情况下的问题,设计了两种鲁棒性算法,能适应不准确的用户偏好评估和模型错误导致的聚类问题,证明了我们算法的遗憾上限。实验证明我们对之前算法的优越性。
Oct, 2023
研究论文探讨了从不完美人类反馈学习的问题,通过将人类反馈的不完美性视为对用户效用的不可知修正,提出了改进的对抗式竞争学习模型。通过证明最低遗憾下界并设计具有稳健性的梯度算法,揭示了在不同程度不完美的情况下,梯度算法在效率与稳健性间的平衡关系,并通过实验验证了其实际应用价值。
May, 2024
论文研究了预测问题和多臂老虎机问题两个具有序列决策的基本问题。特别地,我们关注当对手可能篡改损失时的随机机制,并研究能够实现的鲁棒性水平。本文的主要贡献在于表明,最佳鲁棒性可以通过对所涉及的污染量的平方根依赖来表达。此外,我们还提供了下限,表明上述遗憾边界是紧的。最后,对于多臂老虎机问题,我们还提供了一个近似紧密的下限。
Sep, 2021
本文提出一种在线学习算法 BanditQ,基于队列理论和在线学习相结合,实现公平在线预测,并在信息完整的情况下,达到目标约束,同时实现 $O (T^{3/4})$ 的损失率。
Apr, 2023
我们设计了一种新颖的对抗性鲁棒性离线强化学习方法,以处理具有不同数据生成分布覆盖假设的数据污染情况,通过学习奖励模型和置信区间,然后在置信区间内学习一个悲观的最优策略,实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。
Feb, 2024
本研究提出了一种在线聚类的赌博算法,通过允许用户频率的非统一分布,并使用简单的集合结构来表示聚类,提出了一种更有效的算法,并证明了该算法的遗憾界可以不考虑用户的最小频率。在合成和真实数据集的实验中,新算法相对于现有方法具有一定的优势。
Feb, 2019
本文介绍了一种在线学习算法,它使用了一种基于代价敏感分类器的方法,并实现了最优遗憾率,与之前的算法相比,具有指数级别的运行速度优势,并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。
Jun, 2011
我们研究了一种具有多步非线性切换成本和反馈延迟的挑战性平滑在线凸优化(SOCO)形式,提出了一种新颖的机器学习(ML)增强的在线算法,名为 Robustness-Constrained Learning(RCL),它通过受限投影将不受信任的 ML 预测与可信的专家在线算法结合起来,以增强 ML 预测的鲁棒性。具体而言,我们证明了 RCL 能够对于任何给定的专家保证(1+λ)竞争力,其中 λ>0,同时以鲁棒性感知的方式明确地训练 ML 模型以提高平均性能。重要的是,RCL 是第一个在多步切换成本和反馈延迟情况下具有可证明的鲁棒性保证的 ML 增强算法。我们以电动交通的电池管理为案例研究,展示了 RCL 在鲁棒性和平均性能方面的改进。
Oct, 2023