在带有不确定关系的决斗伴侣竞争中识别科普兰得胜者

Oct, 2023

在带有不确定关系的决斗伴侣竞争中识别科普兰得胜者

Identifying Copeland Winners in Dueling Bandits with Indifferences

Viktor Bengs, Björn Haddenhorst, Eyke Hüllermeier

TL;DR通过研究三向反馈的对决问题，我们确定了一个学习算法的样本复杂度下限，提出了POCOWISTA算法，并证明了在特定条件下偏好概率的情况下，我们可以得到一个改进的样本复杂度。

Abstract

We consider the task of identifying the copeland winner(s) in a dueling bandits problem with ternary feedback. This is an underexplored bu

发现论文，激发创造

K臂对决赌徒问题的相关上限置信界

本文介绍了一种新的解决K-armed dueling bandit问题的方法，其扩展了Upper Confidence Bound算法并证明了有限时间的遗憾度为O（log t）。经实验结果证实，与现有技术相比，该方法在信息检索中取得了显着的优势。

Dec, 2013

将对决强盗问题简化为基本强盗问题

提出了减少德杰斯特拉竞标者问题(Dueling Bandits)到传统(随机)多臂赌博机问题(Multi-Armed Bandits)的算法，我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。

May, 2014

稀疏对决波段

本文提出一种新的基于Borda准则的方法，解决了在多臂赌博机中的对抗赌博问题。通过压缩样本量和利用比较稀疏性的结构限制，我们提出了一种新的叫做Successive Elimination with Comparison Sparsity (SECS) 的算法，并在实验中对其进行了评估。结果表明，这种基于稀疏模型的新方法相对于标准方法能够获得显著的改进。

Jan, 2015

Copeland对立双臂赌博算法

研究提出了两个算法以在Condorcet winner不存在的情况下解决dueling bandit问题。这些算法寻求最小化与Copeland winner相关的遗憾，Copeland winner与Condorcet winner不同的是，它是有保障的存在。第一个算法CCB适用于少量的arms，第二个算法SCB在大规模问题上表现更好。该研究提供了理论结果以界定CCB和SCB所积累的遗憾。这些结果大幅度改善了现有结果，并且没有附带限制性假设，提供了O(K log T)的最佳结果。

Jun, 2015

Dueling Bandit问题的遗憾下限和最优算法

本文研究了K-armed dueling bandit问题，提出了一种受Deterministic Minimum Empirical Divergence算法启发的算法，并得到了匹配下界的后悔上界，实验结果表明该算法明显优于现有算法。

Jun, 2015

Copeland决斗问题: 损失下限, 最佳算法和高效算法

研究了K-armed dueling bandit问题，提出了CW-RMED和ECW-RMED算法来解决Copeland winners的推荐问题，并通过实验比较证明ECW-RMED算法的有效性优于现有算法。

May, 2016

具有相关臂的多路对决自适应波段算法

本文研究具有相关性的多股臂的多对打算法，在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征，使用自对抗算法，结合高斯过程统计方法可以更准确地捕捉相关性，提升算法的效果。

Apr, 2017

基于偏好的Dueling Bandits在线学习：综述

本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法，关注于在序贯决策过程中进行的数据反馈和学习，并且考虑了强度信息不可用的情况。

Jul, 2018

上下文决斗赌徒的良好感知汤普森抽样

提出了适用于线性上下文对抗性对决带的一种名为FGTS.CDB的汤普森抽样算法，最小化遗憾，并在合成数据上证明比现有算法表现优秀。

Apr, 2024

对抗性多路决斗者

对抗性多对决赌博机中的后悔最小化问题进行了介绍，并引入了一种新算法MiDEX（Multi Dueling EXP3）来学习来自成对子集选择模型的偏好反馈。证明了MiDEX相对于从K个臂中选择Borda赢家的累计T轮后悔的期望上界为O((KlogK)^{1/3}T^{2/3})，同时证明了在该设置下预期后悔的下界为Ω(K^{1/3}T^{2/3})，表明我们提出的算法是接近最优的。

Jun, 2024