带有弱遗憾的对决神经网络

Jun, 2017

Dueling Bandits With Weak Regret

Bangrui Chen, Peter I. Frazier

TL;DR本文研究了针对在线内容推荐中的比较对策问题的两类后悔概念，提出了一种新算法Winner Stays，并在模拟和实际数据方面进行了实验，结果显示WS算法在弱后悔和强后悔方面都显著优于现有算法。

Abstract

We consider online content recommendation with implicit feedback through pairwise comparisons, formalized as the so-called dueling bandit problem. We study the →

发现论文，激发创造

K臂对决赌徒问题的相关上限置信界

本文介绍了一种新的解决K-armed dueling bandit问题的方法，其扩展了Upper Confidence Bound算法并证明了有限时间的遗憾度为O（log t）。经实验结果证实，与现有技术相比，该方法在信息检索中取得了显着的优势。

Dec, 2013

将对决强盗问题简化为基本强盗问题

提出了减少德杰斯特拉竞标者问题(Dueling Bandits)到传统(随机)多臂赌博机问题(Multi-Armed Bandits)的算法，我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。

May, 2014

Copeland对立双臂赌博算法

研究提出了两个算法以在Condorcet winner不存在的情况下解决dueling bandit问题。这些算法寻求最小化与Copeland winner相关的遗憾，Copeland winner与Condorcet winner不同的是，它是有保障的存在。第一个算法CCB适用于少量的arms，第二个算法SCB在大规模问题上表现更好。该研究提供了理论结果以界定CCB和SCB所积累的遗憾。这些结果大幅度改善了现有结果，并且没有附带限制性假设，提供了O(K log T)的最佳结果。

Jun, 2015

Dueling Bandit问题的遗憾下限和最优算法

本文研究了K-armed dueling bandit问题，提出了一种受Deterministic Minimum Empirical Divergence算法启发的算法，并得到了匹配下界的后悔上界，实验结果表明该算法明显优于现有算法。

Jun, 2015

Copeland决斗问题: 损失下限, 最佳算法和高效算法

研究了K-armed dueling bandit问题，提出了CW-RMED和ECW-RMED算法来解决Copeland winners的推荐问题，并通过实验比较证明ECW-RMED算法的有效性优于现有算法。

May, 2016

非平稳对决多臂老虎机的最优高效动态遗憾算法

本文研究了$K$-武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。

Nov, 2021

针对随机情境对决赌徒的方差感知后悔界限

本研究提出了一种基于广义线性模型的上下文对决算法，该算法在计算效率和方差感知遗憾边界方面有优势，并通过实验验证了其优于以往无方差算法的优点。

Oct, 2023

一种广义Borda准则下最优和自适应的非平稳对决多臂老虎机算法

对比辩论问题中实现严重非稳态度的底线非希望恶化情况下，解决Borda动态后悔上界问题的技术，揭示了Condorcet与Borda后悔目标在对比辩论问题中学习到严重非稳态度的根本差异。

Mar, 2024

对抗性多路决斗者

对抗性多对决赌博机中的后悔最小化问题进行了介绍，并引入了一种新算法MiDEX（Multi Dueling EXP3）来学习来自成对子集选择模型的偏好反馈。证明了MiDEX相对于从K个臂中选择Borda赢家的累计T轮后悔的期望上界为O((KlogK)^{1/3}T^{2/3})，同时证明了在该设置下预期后悔的下界为Ω(K^{1/3}T^{2/3})，表明我们提出的算法是接近最优的。

Jun, 2024

具有随机延迟反馈的偏置对抗赌博者

本研究解决了在对抗赌博者问题中，行动反馈受到延迟影响的实际情况。作者提出了两种算法来应对延迟情况，其中一种在已知延迟分布的情况下能达到最佳后悔界限，另一个则在未知分布的情况下利用延迟的期望值，显著提升了政策更新的效率。研究结果显示，这些算法在合成和真实数据集上的表现出色，潜在地改善了在线广告和推荐系统的应用效果。

Aug, 2024