双掷硬币汤普森抽样在对决式多臂老虎机算法中的应用

Apr, 2016

双掷硬币汤普森抽样在对决式多臂老虎机算法中的应用

Double Thompson Sampling for Dueling Bandits

Huasen Wu, Xin Liu, R. Srikant

TL;DR该论文通过提出D-TS算法，使用Thompson Sampling解决了dueling bandit问题，该算法适用于一般的Copeland dueling bandits，其中Condorcet dueling bandits是其特例，并在合成和真实数据上进行了模拟，证明了算法的效率。

Abstract

In this paper, we propose a Double thompson sampling (d-ts) algorithm for dueling bandit problems. As indicated by its name, →

发现论文，激发创造

多臂赌博问题中汤普森采样的分析

本文介绍了使用贝叶斯算法的 Thompson Sampling 原则，旨在在序贯决策问题中研究探索/开发权衡。该算法在实验证明接近最优，并展现了一些理想的特性，但对该算法的理论认识相当有限。本文第一次展示了 Thompson Sampling 算法在多臂赌博机问题中实现了对数级别的预期遗憾。

Nov, 2011

将对决强盗问题简化为基本强盗问题

提出了减少德杰斯特拉竞标者问题(Dueling Bandits)到传统(随机)多臂赌博机问题(Multi-Armed Bandits)的算法，我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。

May, 2014

多组玩法随机多臂赌博问题中 Thompson 抽样的最优遗憾分析

本文提出了多次试验下的Thompson sampling方法（MP-TS）并对其进行了后效分析，证明了其具有与Anantharam等人提供的最佳后悔下界相匹配的最优后悔上界，并通过计算机模拟进行了验证。我们还提出了MP-TS的改进版本，并表明其具有更好的实际效果。

Jun, 2015

Dueling Bandit问题的遗憾下限和最优算法

本文研究了K-armed dueling bandit问题，提出了一种受Deterministic Minimum Empirical Divergence算法启发的算法，并得到了匹配下界的后悔上界，实验结果表明该算法明显优于现有算法。

Jun, 2015

Copeland决斗问题: 损失下限, 最佳算法和高效算法

研究了K-armed dueling bandit问题，提出了CW-RMED和ECW-RMED算法来解决Copeland winners的推荐问题，并通过实验比较证明ECW-RMED算法的有效性优于现有算法。

May, 2016

具有相关臂的多路对决自适应波段算法

本文研究具有相关性的多股臂的多对打算法，在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征，使用自对抗算法，结合高斯过程统计方法可以更准确地捕捉相关性，提升算法的效果。

Apr, 2017

MOTS：极小极大化优化的汤普森采样

本文提出了一种名为MOTS的变体，它能够自适应地削减每个时间步骤中所选臂的采样实例，并证明了这种变体算法能够实现多臂赌博问题的最小化最优表现。

Mar, 2020

在带有不确定关系的决斗伴侣竞争中识别科普兰得胜者

通过研究三向反馈的对决问题，我们确定了一个学习算法的样本复杂度下限，提出了POCOWISTA算法，并证明了在特定条件下偏好概率的情况下，我们可以得到一个改进的样本复杂度。

Oct, 2023

上下文决斗赌徒的良好感知汤普森抽样

提出了适用于线性上下文对抗性对决带的一种名为FGTS.CDB的汤普森抽样算法，最小化遗憾，并在合成数据上证明比现有算法表现优秀。

Apr, 2024

智能和适应后验采样算法用于二元选择

我们研究了基于Thompson Sampling的有界奖励随机赌博算法。为了解决现有的与高斯先验的Thompson Sampling相关的问题相关后悔界限在T≤288e^64时是虚无的问题，我们导出了一个更实用的界限，将主要项的系数从288e^64缩小到1270。此外，我们提出了两种参数化的Thompson Sampling算法：带有模型聚合的TS-MA-α和带有时间战斗的TS-TD-α，其中α∈[0,1]控制效用与计算之间的权衡。这两种算法都可以实现O(Kln^(α+1)(T)/Δ)的后悔界限，其中K是臂数量，T是有限学习时段，Δ表示拉动次优臂时的单轮性能损失。

May, 2024