一种广义 Borda 准则下最优和自适应的非平稳对决多臂老虎机算法
本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题,设计了能够有效解决此问题的算法,证明了算法的最优性,并进行了大量模拟和与其他算法对比的实验。
Nov, 2021
介绍针对非静态赌博机环境的最新数据驱动决策算法,采用了随机和对手式学习算法的非传统结合方法,通过滑动窗口 - 置信界算法,针对各种非静态赌博机问题实现了最优动态遗憾边界,并通过数字实验验证了算法的超越性能。
Mar, 2019
本研究开发了多种高效的上下文推断算法,为非平稳环境提供了有效的解决方案,具有动态适应分布变化的能力,同时通过对各种标准回归进行分析,证明了在时间和空间成本上都能达到最优的效果。
Aug, 2017
研究提出了两个算法以在 Condorcet winner 不存在的情况下解决 dueling bandit 问题。这些算法寻求最小化与 Copeland winner 相关的遗憾,Copeland winner 与 Condorcet winner 不同的是,它是有保障的存在。第一个算法 CCB 适用于少量的 arms,第二个算法 SCB 在大规模问题上表现更好。该研究提供了理论结果以界定 CCB 和 SCB 所积累的遗憾。这些结果大幅度改善了现有结果,并且没有附带限制性假设,提供了 O (K log T) 的最佳结果。
Jun, 2015
这篇研究论文提出了一个基于连续空间的成本函数的对决 Bandit 问题解决方案,介绍了一种随机镜像下降算法,并表明该算法在成本函数的强凸和平滑假设下实现了 O (sqrt (T log T)) 的遗憾界。此外,它还探讨了对决 Bandit 问题遗憾最小化与成本函数凸优化的等价性。
Nov, 2017
提出了一种在非平稳环境中运行的自适应风险感知策略框架,该框架结合了文献中普遍存在的各种风险度量标准,将多臂赌博算法的多个系列映射到风险感知的设置中,并将重启贝叶斯在线变点检测算法和(可调节的)强制探索策略结合在一起,以检测本地(针对每个臂)的切换,并提供有限时间的理论保证和渐进性的损失界限,性能在合成和现实环境中均优于现有状态下的技术,并在风险感知和非平稳性方面高效执行。
Oct, 2023
对抗性多对决赌博机中的后悔最小化问题进行了介绍,并引入了一种新算法 MiDEX(Multi Dueling EXP3)来学习来自成对子集选择模型的偏好反馈。证明了 MiDEX 相对于从 K 个臂中选择 Borda 赢家的累计 T 轮后悔的期望上界为 O ((KlogK)^{1/3} T^{2/3}),同时证明了在该设置下预期后悔的下界为 Ω(K^{1/3} T^{2/3}),表明我们提出的算法是接近最优的。
Jun, 2024
本文研究了 K-armed dueling bandit 问题,提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法,并得到了匹配下界的后悔上界,实验结果表明该算法明显优于现有算法。
Jun, 2015