DP-Dueling:从偏好反馈学习而不损害用户隐私
提出了减少德杰斯特拉竞标者问题(Dueling Bandits)到传统(随机)多臂赌博机问题(Multi-Armed Bandits)的算法,我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。
May, 2014
本文研究了K-armed dueling bandit问题,提出了一种受Deterministic Minimum Empirical Divergence算法启发的算法,并得到了匹配下界的后悔上界,实验结果表明该算法明显优于现有算法。
Jun, 2015
本文研究具有相关性的多股臂的多对打算法,在推荐系统等领域可以更高效地学习和优化用户的基于偏好的关键特征,使用自对抗算法,结合高斯过程统计方法可以更准确地捕捉相关性,提升算法的效果。
Apr, 2017
这篇研究论文提出了一个基于连续空间的成本函数的对决Bandit问题解决方案,介绍了一种随机镜像下降算法,并表明该算法在成本函数的强凸和平滑假设下实现了O(sqrt(T log T))的遗憾界。此外,它还探讨了对决Bandit问题遗憾最小化与成本函数凸优化的等价性。
Nov, 2017
本文介绍了使用本地差分隐私的情境赌博算法,为了在保持用户数据隐私不受侵犯的情况下个性化学习,利用了一种基于随机梯度下降法的估计器和更新机制来确保使用LDP,并且在广义线性情境中利用了该方法。我们还开发了一个基于最小二乘法的评估器和更新机制,最后通过模拟和实际数据集的实验来证明了算法的性能在强隐私保护的条件下具有相当好的表现。
Jun, 2021
本文研究了$K$-武斗器下在非固态或时变偏好情况下动态遗憾最小化问题,设计了能够有效解决此问题的算法,证明了算法的最优性,并进行了大量模拟和与其他算法对比的实验。
Nov, 2021
对抗性多对决赌博机中的后悔最小化问题进行了介绍,并引入了一种新算法MiDEX(Multi Dueling EXP3)来学习来自成对子集选择模型的偏好反馈。证明了MiDEX相对于从K个臂中选择Borda赢家的累计T轮后悔的期望上界为O((KlogK)^{1/3}T^{2/3}),同时证明了在该设置下预期后悔的下界为Ω(K^{1/3}T^{2/3}),表明我们提出的算法是接近最优的。
Jun, 2024