本文研究具有相关性的多股臂的多对打算法,在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征,使用自对抗算法,结合高斯过程统计方法可以更准确地捕捉相关性,提升算法的效果。
Apr, 2017
对抗性多对决赌博机中的后悔最小化问题进行了介绍,并引入了一种新算法 MiDEX(Multi Dueling EXP3)来学习来自成对子集选择模型的偏好反馈。证明了 MiDEX 相对于从 K 个臂中选择 Borda 赢家的累计 T 轮后悔的期望上界为 O ((KlogK)^{1/3} T^{2/3}),同时证明了在该设置下预期后悔的下界为 Ω(K^{1/3} T^{2/3}),表明我们提出的算法是接近最优的。
Jun, 2024
本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法,关注于在序贯决策过程中进行的数据反馈和学习,并且考虑了强度信息不可用的情况。
Jul, 2018
本文研究了 K-armed dueling bandit 问题,提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法,并得到了匹配下界的后悔上界,实验结果表明该算法明显优于现有算法。
Jun, 2015
提出了一种新的 dueling bandits 模型来解决在线排名器评估中的探索 - 开发权衡问题,该模型使用对于无限数量的排名器的同时比较。实验结果表明,该算法与现有的最先进的 dueling bandit 算法相比,表现出了数量级的性能提升。
Aug, 2016
这篇研究论文提出了一个基于连续空间的成本函数的对决 Bandit 问题解决方案,介绍了一种随机镜像下降算法,并表明该算法在成本函数的强凸和平滑假设下实现了 O (sqrt (T log T)) 的遗憾界。此外,它还探讨了对决 Bandit 问题遗憾最小化与成本函数凸优化的等价性。
Nov, 2017
研究了一种名为 Qualitative Dueling Bandit (QDB) 问题的多臂老虎机问题,提出了可直接估算每个臂直接胜出率的解算法,并在理论和实验上证明了算法在使用质量反馈时表现出色。
Sep, 2018
该研究介绍了因式赌博模型,它是一种基于有限(赌博)反馈的学习框架,其中行动可以分解为原子行动的笛卡尔积。因式赌博将等级 1 赌博作为一个特例,但显着放宽了奖励函数形式的假设。我们提供了一种随时随地的随机因式赌博算法,并匹配了问题的上界和下界的常数。此外,我们表明,通过轻微修改,所提出的算法可以应用于效用基础的反复决斗赌徒。相对于现有算法,我们在遗憾边界的附加项方面获得了改进(这些附加项在时间范围内占支配地位,该时间范围呈指数增长)
对比辩论问题中实现严重非稳态度的底线非希望恶化情况下,解决 Borda 动态后悔上界问题的技术,揭示了 Condorcet 与 Borda 后悔目标在对比辩论问题中学习到严重非稳态度的根本差异。
Mar, 2024
通过建立离散选择模型与在线学习和多臂赌博算法领域之间的联系,本文的两个主要贡献是提供了一类算法的次线性遗憾界,包括 Exp3 算法作为特例,并引入了一类新的对抗多臂赌博算法,借鉴了 Wen (2001) 首次提出的广义嵌套逻辑模型,这些算法能够通过封闭形式的采样分布概率实现高度的模型调优灵活性。为了演示我们算法的实际实施,我们进行了数值实验,重点关注随机赌博的情况。
Oct, 2023