一种广义 Borda 准则下最优和自适应的非平稳对决多臂老虎机算法

Mar, 2024

一种广义 Borda 准则下最优和自适应的非平稳对决多臂老虎机算法

Optimal and Adaptive Non-Stationary Dueling Bandits Under a Generalized Borda Criterion

Joe Suk, Arpit Agarwal

TL;DR对比辩论问题中实现严重非稳态度的底线非希望恶化情况下，解决 Borda 动态后悔上界问题的技术，揭示了 Condorcet 与 Borda 后悔目标在对比辩论问题中学习到严重非稳态度的根本差异。

Abstract

In dueling bandits, the learner receives preference feedback between arms, and the regret of an arm is defined in terms of its suboptimality to a winner arm. The more challenging and practically motivated

dueling bandits non-stationary borda regret learnability

发现论文，激发创造

非平稳对决多臂老虎机的最优高效动态遗憾算法

本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。

Nov, 2021

对漂移进行对冲：在非稳态环境下学习优化

介绍针对非静态赌博机环境的最新数据驱动决策算法，采用了随机和对手式学习算法的非传统结合方法，通过滑动窗口 - 置信界算法，针对各种非静态赌博机问题实现了最优动态遗憾边界，并通过数字实验验证了算法的超越性能。

Mar, 2019

学习在非稳态下进行优化

介绍了一种新的非平稳线性随机赌博算法，应用于动态定价和广告分配领域，并使用滑动窗口 UCB 算法实现了最优动态后悔上界。

Oct, 2018

非平稳环境下高效应对背景干扰的 Bandit 算法

本研究开发了多种高效的上下文推断算法，为非平稳环境提供了有效的解决方案，具有动态适应分布变化的能力，同时通过对各种标准回归进行分析，证明了在时间和空间成本上都能达到最优的效果。

Aug, 2017

Copeland 对立双臂赌博算法

研究提出了两个算法以在 Condorcet winner 不存在的情况下解决 dueling bandit 问题。这些算法寻求最小化与 Copeland winner 相关的遗憾，Copeland winner 与 Condorcet winner 不同的是，它是有保障的存在。第一个算法 CCB 适用于少量的 arms，第二个算法 SCB 在大规模问题上表现更好。该研究提供了理论结果以界定 CCB 和 SCB 所积累的遗憾。这些结果大幅度改善了现有结果，并且没有附带限制性假设，提供了 O (K log T) 的最佳结果。

Jun, 2015

连续对抗波段的遗憾分析

这篇研究论文提出了一个基于连续空间的成本函数的对决 Bandit 问题解决方案，介绍了一种随机镜像下降算法，并表明该算法在成本函数的强凸和平滑假设下实现了 O (sqrt (T log T)) 的遗憾界。此外，它还探讨了对决 Bandit 问题遗憾最小化与成本函数凸优化的等价性。

Nov, 2017

一种风险厌恶的非平稳随机多臂赌博机框架

提出了一种在非平稳环境中运行的自适应风险感知策略框架，该框架结合了文献中普遍存在的各种风险度量标准，将多臂赌博算法的多个系列映射到风险感知的设置中，并将重启贝叶斯在线变点检测算法和（可调节的）强制探索策略结合在一起，以检测本地（针对每个臂）的切换，并提供有限时间的理论保证和渐进性的损失界限，性能在合成和现实环境中均优于现有状态下的技术，并在风险感知和非平稳性方面高效执行。

Oct, 2023

非平稳环境下的组合半赌博算法

该研究探讨了非静态组合半强盗问题，研究了在动态和切换的情况下，算法所能达到的最佳后悔上限以及需要提前了解的参数，并提供了无需先知参数的算法。

Feb, 2020

对抗性多路决斗者

对抗性多对决赌博机中的后悔最小化问题进行了介绍，并引入了一种新算法 MiDEX（Multi Dueling EXP3）来学习来自成对子集选择模型的偏好反馈。证明了 MiDEX 相对于从 K 个臂中选择 Borda 赢家的累计 T 轮后悔的期望上界为 O ((KlogK)^{1/3} T^{2/3})，同时证明了在该设置下预期后悔的下界为 Ω(K^{1/3} T^{2/3})，表明我们提出的算法是接近最优的。

Jun, 2024

Dueling Bandit 问题的遗憾下限和最优算法

本文研究了 K-armed dueling bandit 问题，提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法，并得到了匹配下界的后悔上界，实验结果表明该算法明显优于现有算法。

Jun, 2015