具有随机延迟反馈的偏置对抗赌博者

Aug, 2024

具有随机延迟反馈的偏置对抗赌博者

Biased Dueling Bandits with Stochastic Delayed Feedback

Bongsoo Yi, Yue Kang, Yao Li

TL;DR本研究解决了在对抗赌博者问题中，行动反馈受到延迟影响的实际情况。作者提出了两种算法来应对延迟情况，其中一种在已知延迟分布的情况下能达到最佳后悔界限，另一个则在未知分布的情况下利用延迟的期望值，显著提升了政策更新的效率。研究结果显示，这些算法在合成和真实数据集上的表现出色，潜在地改善了在线广告和推荐系统的应用效果。

Abstract

The dueling bandit problem, an essential variation of the traditional multi-armed bandit problem, has become significantly prominent recently due to its broad applications in online advertising, recommendation systems, information retrieval, and more. However, in many real-world applications, the feedback for actions is often subject to unavoidable delays an

发现论文，激发创造

将对决强盗问题简化为基本强盗问题

提出了减少德杰斯特拉竞标者问题(Dueling Bandits)到传统(随机)多臂赌博机问题(Multi-Armed Bandits)的算法，我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。

May, 2014

Dueling Bandit问题的遗憾下限和最优算法

本文研究了K-armed dueling bandit问题，提出了一种受Deterministic Minimum Empirical Divergence算法启发的算法，并得到了匹配下界的后悔上界，实验结果表明该算法明显优于现有算法。

Jun, 2015

具有相关臂的多路对决自适应波段算法

本文研究具有相关性的多股臂的多对打算法，在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征，使用自对抗算法，结合高斯过程统计方法可以更准确地捕捉相关性，提升算法的效果。

Apr, 2017

带有弱遗憾的对决神经网络

本文研究了针对在线内容推荐中的比较对策问题的两类后悔概念，提出了一种新算法Winner Stays，并在模拟和实际数据方面进行了实验，结果显示WS算法在弱后悔和强后悔方面都显著优于现有算法。

Jun, 2017

连续对抗波段的遗憾分析

这篇研究论文提出了一个基于连续空间的成本函数的对决Bandit问题解决方案，介绍了一种随机镜像下降算法，并表明该算法在成本函数的强凸和平滑假设下实现了O(sqrt(T log T))的遗憾界。此外，它还探讨了对决Bandit问题遗憾最小化与成本函数凸优化的等价性。

Nov, 2017

基于偏好的Dueling Bandits在线学习：综述

本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法，关注于在序贯决策过程中进行的数据反馈和学习，并且考虑了强度信息不可用的情况。

Jul, 2018

具有定性反馈的决斗式对抗

研究了一种名为Qualitative Dueling Bandit (QDB)问题的多臂老虎机问题，提出了可直接估算每个臂直接胜出率的解算法，并在理论和实验上证明了算法在使用质量反馈时表现出色。

Sep, 2018

非平稳对决多臂老虎机的最优高效动态遗憾算法

本文研究了$K$-武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。

Nov, 2021

广义线性赌博机中的延迟反馈：重访

本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Jul, 2022

针对随机情境对决赌徒的方差感知后悔界限

本研究提出了一种基于广义线性模型的上下文对决算法，该算法在计算效率和方差感知遗憾边界方面有优势，并通过实验验证了其优于以往无方差算法的优点。

Oct, 2023