对抗性多对决赌博机中的后悔最小化问题进行了介绍,并引入了一种新算法 MiDEX(Multi Dueling EXP3)来学习来自成对子集选择模型的偏好反馈。证明了 MiDEX 相对于从 K 个臂中选择 Borda 赢家的累计 T 轮后悔的期望上界为 O ((KlogK)^{1/3} T^{2/3}),同时证明了在该设置下预期后悔的下界为 Ω(K^{1/3} T^{2/3}),表明我们提出的算法是接近最优的。
Jun, 2024
本研究提出一种基于差分隐私约束条件的在线探索强化学习算法,该算法达到了非隐私算法的信息理论下限,同时利用隐私发布噪音技术获得了隐私保护,解决了个性化医疗等隐私数据应用中数据使用安全的问题。
Dec, 2022
通过交互式差分隐私的视角,研究了具有可信中心决策者的隐私问题以及与之相关的 bandit 算法和后悔。
Sep, 2023
本文研究联邦线性情境强化学习在用户级差分隐私下的模型,介绍了用户级中心差分隐私和本地差分隐私,并研究了学习遗憾与相应差分隐私保证之间的基本权衡。对于中心差分隐私,提出了一种联邦算法 Robin,并在满足用户级差分隐私的情况下证明了其近乎最优,对于本地差分隐私,获得了一些下界,表明在不同条件下,满足用户级 (ε,δ)-LDP 的学习必须遭受至少 min {1/ε,M} 或 min {1 / 根号下 ε,根号下 M} 的遗憾膨胀因子。
Jun, 2023
奖励最大化问题中,我们考虑资源消耗的限制下的对决强盗设置。我们提出了基于 EXP3 的对决算法,并通过数值模拟证明了我们提出方法的有效性。
Dec, 2023
本文提出了一种确保差分隐私的在线线性优化算法,其完全信息情况下的后果与 epsilon 无关,但在轮盘线性优化和非随机多臂匪徒的情况下,其遗憾上限是一个 $ ilde {O}$ 函数,同时使时间复杂度在 $\tilde {O}(\frac {1}{\epsilon}\sqrt {T}))$ 内。
Jan, 2017
本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题,设计了能够有效解决此问题的算法,证明了算法的最优性,并进行了大量模拟和与其他算法对比的实验。
Nov, 2021
这篇研究论文提出了一个基于连续空间的成本函数的对决 Bandit 问题解决方案,介绍了一种随机镜像下降算法,并表明该算法在成本函数的强凸和平滑假设下实现了 O (sqrt (T log T)) 的遗憾界。此外,它还探讨了对决 Bandit 问题遗憾最小化与成本函数凸优化的等价性。
Nov, 2017
本研究提出的隐私保护算法在解决随机多臂赌博机问题时,相比之前的成果取得了较大的进展。算法可以保证最优遗憾率 O (Ɛ−1+logT), 通过实验证实了理论界和实践界之间的一致性。
Nov, 2015
本研究探讨了在保护个体标注者隐私的同时,通过偏好反馈来估计奖励模型的问题,使用了基于参数的 Bradley-Terry-Luce (BTL) 模型,提供了关于奖励参数估计误差的上下界,以及在本地模型和中央模型下确保标签 - 隐私所需的额外成本,仿真结果验证了理论结果。
Oct, 2023