本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法,关注于在序贯决策过程中进行的数据反馈和学习,并且考虑了强度信息不可用的情况。
Jul, 2018
提出了减少德杰斯特拉竞标者问题 (Dueling Bandits) 到传统 (随机) 多臂赌博机问题 (Multi-Armed Bandits) 的算法,我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。
May, 2014
本文研究具有相关性的多股臂的多对打算法,在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征,使用自对抗算法,结合高斯过程统计方法可以更准确地捕捉相关性,提升算法的效果。
Apr, 2017
本文研究了 K-armed dueling bandit 问题,提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法,并得到了匹配下界的后悔上界,实验结果表明该算法明显优于现有算法。
Jun, 2015
本文介绍了一种新的解决 K-armed dueling bandit 问题的方法,其扩展了 Upper Confidence Bound 算法并证明了有限时间的遗憾度为 O(log t)。 经实验结果证实,与现有技术相比,该方法在信息检索中取得了显着的优势。
Dec, 2013
这篇研究论文提出了一个基于连续空间的成本函数的对决 Bandit 问题解决方案,介绍了一种随机镜像下降算法,并表明该算法在成本函数的强凸和平滑假设下实现了 O (sqrt (T log T)) 的遗憾界。此外,它还探讨了对决 Bandit 问题遗憾最小化与成本函数凸优化的等价性。
Nov, 2017
我们研究了具有图反馈的随机多臂赌博机问题,建立了这种新颖反馈结构的遗憾下界,并引入了两种基于 UCB 的算法:具有问题独立遗憾上界的 D-UCB 和具有问题相关上界的 C-UCB。借助相似性结构,我们还研究了臂的数量随时间增加的情况,并提供了这两种算法的遗憾上界,并讨论了遗憾上界与臂均值分布的次线性关系。最后,我们进行实验证实了理论结果。
May, 2024
在这项研究中,我们利用代理人能够选择获取人工反馈的上下文的事实,引入了离线情境对决贝叶斯臂设置,提出了一种基于上置信界的算法,并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。
Jul, 2023
本文提出一种在线学习算法 BanditQ,基于队列理论和在线学习相结合,实现公平在线预测,并在信息完整的情况下,达到目标约束,同时实现 $O (T^{3/4})$ 的损失率。
Apr, 2023
应用神经网络估计奖励函数、提出一种基于上界置信度和汤普森采样的算法,解决了上下文对决匹配问题中线性奖励函数假设带来的挑战,并在合理次数内选择最佳策略。同时扩展理论结果到带有二元反馈的上下文匹配问题。
Jul, 2024