局部差分隐私下伯努利奖励的汤普森抽样
本研究使用对数批量查询和不同的隐私模型提出不同关于武断攻击的差分隐私和鲁棒性阿姆淘汰算法,实现同时在随机线性医生问题中提供差分隐私和对手强度的功能,并提供相应的遗憾界限。
Apr, 2023
本研究提出的隐私保护算法在解决随机多臂赌博机问题时,相比之前的成果取得了较大的进展。算法可以保证最优遗憾率 O (Ɛ−1+logT), 通过实验证实了理论界和实践界之间的一致性。
Nov, 2015
本文研究了固定时限表格式 Markov 决策过程在差分隐私约束下进行带有重尾奖赏的问题,提出了两种面向重尾 MDPs 的框架,并探讨了 JDP 和 LDP 模型在两个框架下的后悔上限。
Jun, 2023
本研究提出一种基于差分隐私约束条件的在线探索强化学习算法,该算法达到了非隐私算法的信息理论下限,同时利用隐私发布噪音技术获得了隐私保护,解决了个性化医疗等隐私数据应用中数据使用安全的问题。
Dec, 2022
本文研究联邦线性情境强化学习在用户级差分隐私下的模型,介绍了用户级中心差分隐私和本地差分隐私,并研究了学习遗憾与相应差分隐私保证之间的基本权衡。对于中心差分隐私,提出了一种联邦算法 Robin,并在满足用户级差分隐私的情况下证明了其近乎最优,对于本地差分隐私,获得了一些下界,表明在不同条件下,满足用户级 (ε,δ)-LDP 的学习必须遭受至少 min {1/ε,M} 或 min {1 / 根号下 ε,根号下 M} 的遗憾膨胀因子。
Jun, 2023
本文介绍了使用本地差分隐私的情境赌博算法,为了在保持用户数据隐私不受侵犯的情况下个性化学习,利用了一种基于随机梯度下降法的估计器和更新机制来确保使用 LDP,并且在广义线性情境中利用了该方法。我们还开发了一个基于最小二乘法的评估器和更新机制,最后通过模拟和实际数据集的实验来证明了算法的性能在强隐私保护的条件下具有相当好的表现。
Jun, 2021
本文将 Thompson sampling 算法扩展到预算限制的 MAB 中,通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新,证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度,通过我们的仿真实验验证了该算法的有效性。
May, 2015
本文提出了一种结合拉普拉斯机制和 EXP3 的算法,在对抗性赌徒环境中实现 ε 差分隐私,并将最佳已知遗憾界从 O (T^(3/4)) 提高到了 O (T^(2/3)),同时达到了 O (√T ln T/ε) 的决策精度,其在自适应对手中具有良好的鲁棒性,并进行了实验验证。
Jan, 2017