带有弱遗憾的对决神经网络
本文介绍了一种新的解决K-armed dueling bandit问题的方法,其扩展了Upper Confidence Bound算法并证明了有限时间的遗憾度为O(log t)。 经实验结果证实,与现有技术相比,该方法在信息检索中取得了显着的优势。
Dec, 2013
提出了减少德杰斯特拉竞标者问题(Dueling Bandits)到传统(随机)多臂赌博机问题(Multi-Armed Bandits)的算法,我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。
May, 2014
研究提出了两个算法以在Condorcet winner不存在的情况下解决dueling bandit问题。这些算法寻求最小化与Copeland winner相关的遗憾,Copeland winner与Condorcet winner不同的是,它是有保障的存在。第一个算法CCB适用于少量的arms,第二个算法SCB在大规模问题上表现更好。该研究提供了理论结果以界定CCB和SCB所积累的遗憾。这些结果大幅度改善了现有结果,并且没有附带限制性假设,提供了O(K log T)的最佳结果。
Jun, 2015
本文研究了K-armed dueling bandit问题,提出了一种受Deterministic Minimum Empirical Divergence算法启发的算法,并得到了匹配下界的后悔上界,实验结果表明该算法明显优于现有算法。
Jun, 2015
研究了K-armed dueling bandit问题,提出了CW-RMED和ECW-RMED算法来解决Copeland winners的推荐问题,并通过实验比较证明ECW-RMED算法的有效性优于现有算法。
May, 2016
本文研究了$K$-武斗器下在非固态或时变偏好情况下动态遗憾最小化问题,设计了能够有效解决此问题的算法,证明了算法的最优性,并进行了大量模拟和与其他算法对比的实验。
Nov, 2021
对比辩论问题中实现严重非稳态度的底线非希望恶化情况下,解决Borda动态后悔上界问题的技术,揭示了Condorcet与Borda后悔目标在对比辩论问题中学习到严重非稳态度的根本差异。
Mar, 2024
对抗性多对决赌博机中的后悔最小化问题进行了介绍,并引入了一种新算法MiDEX(Multi Dueling EXP3)来学习来自成对子集选择模型的偏好反馈。证明了MiDEX相对于从K个臂中选择Borda赢家的累计T轮后悔的期望上界为O((KlogK)^{1/3}T^{2/3}),同时证明了在该设置下预期后悔的下界为Ω(K^{1/3}T^{2/3}),表明我们提出的算法是接近最优的。
Jun, 2024
本研究解决了在对抗赌博者问题中,行动反馈受到延迟影响的实际情况。作者提出了两种算法来应对延迟情况,其中一种在已知延迟分布的情况下能达到最佳后悔界限,另一个则在未知分布的情况下利用延迟的期望值,显著提升了政策更新的效率。研究结果显示,这些算法在合成和真实数据集上的表现出色,潜在地改善了在线广告和推荐系统的应用效果。
Aug, 2024