具有定性反馈的决斗式对抗

Sep, 2018

Dueling Bandits with Qualitative Feedback

Liyuan Xu, Junya Honda, Masashi Sugiyama

TL;DR研究了一种名为 Qualitative Dueling Bandit (QDB) 问题的多臂老虎机问题，提出了可直接估算每个臂直接胜出率的解算法，并在理论和实验上证明了算法在使用质量反馈时表现出色。

Abstract

We formulate and study a novel multi-armed bandit problem called the qualitative dueling bandit (QDB) problem, where an agent observes not numeric but qualitative feedback by pulling each arm. We employ the same

multi-armed bandit problem qualitative feedback dueling bandit problem regret algorithm

发现论文，激发创造

基于偏好的 Dueling Bandits 在线学习：综述

本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法，关注于在序贯决策过程中进行的数据反馈和学习，并且考虑了强度信息不可用的情况。

Jul, 2018

将对决强盗问题简化为基本强盗问题

提出了减少德杰斯特拉竞标者问题 (Dueling Bandits) 到传统 (随机) 多臂赌博机问题 (Multi-Armed Bandits) 的算法，我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。

May, 2014

具有相关臂的多路对决自适应波段算法

本文研究具有相关性的多股臂的多对打算法，在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征，使用自对抗算法，结合高斯过程统计方法可以更准确地捕捉相关性，提升算法的效果。

Apr, 2017

Dueling Bandit 问题的遗憾下限和最优算法

本文研究了 K-armed dueling bandit 问题，提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法，并得到了匹配下界的后悔上界，实验结果表明该算法明显优于现有算法。

Jun, 2015

K 臂对决赌徒问题的相关上限置信界

本文介绍了一种新的解决 K-armed dueling bandit 问题的方法，其扩展了 Upper Confidence Bound 算法并证明了有限时间的遗憾度为 O（log t）。经实验结果证实，与现有技术相比，该方法在信息检索中取得了显着的优势。

Dec, 2013

连续对抗波段的遗憾分析

这篇研究论文提出了一个基于连续空间的成本函数的对决 Bandit 问题解决方案，介绍了一种随机镜像下降算法，并表明该算法在成本函数的强凸和平滑假设下实现了 O (sqrt (T log T)) 的遗憾界。此外，它还探讨了对决 Bandit 问题遗憾最小化与成本函数凸优化的等价性。

Nov, 2017

具有相似臂的图反馈贝叶斯打赏

我们研究了具有图反馈的随机多臂赌博机问题，建立了这种新颖反馈结构的遗憾下界，并引入了两种基于 UCB 的算法：具有问题独立遗憾上界的 D-UCB 和具有问题相关上界的 C-UCB。借助相似性结构，我们还研究了臂的数量随时间增加的情况，并提供了这两种算法的遗憾上界，并讨论了遗憾上界与臂均值分布的次线性关系。最后，我们进行实验证实了理论结果。

May, 2024

基于核函数的离线上下文对抗波动策略

在这项研究中，我们利用代理人能够选择获取人工反馈的上下文的事实，引入了离线情境对决贝叶斯臂设置，提出了一种基于上置信界的算法，并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。

Jul, 2023

BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

本文提出一种在线学习算法 BanditQ，基于队列理论和在线学习相结合，实现公平在线预测，并在信息完整的情况下，达到目标约束，同时实现 $O (T^{3/4})$ 的损失率。

Apr, 2023

神经对决巴甸

应用神经网络估计奖励函数、提出一种基于上界置信度和汤普森采样的算法，解决了上下文对决匹配问题中线性奖励函数假设带来的挑战，并在合理次数内选择最佳策略。同时扩展理论结果到带有二元反馈的上下文匹配问题。

Jul, 2024