局部差分隐私下伯努利奖励的汤普森抽样

ICMLJul, 2023

局部差分隐私下伯努利奖励的汤普森抽样

Thompson Sampling under Bernoulli Rewards with Local Differential Privacy

Bo Jiang, Tianchi Zhao, Ming Li

TL;DR本文研究了带本地差分隐私保证的多臂老虎机问题的遗憾最小化问题。作者提出了三种机制，分别为线性，二次和指数机制，并推导了每种机制下 Thompson Sampling 算法的随机遗憾边界。最后，本文通过模拟证明了不同机制在不同隐私预算下的收敛性。

Abstract

This paper investigates the problem of regret minimization for multi-armed bandit (MAB) problems with local differential privacy (LDP) guarantee. Given a fixed →

regret minimization multi-armed bandit local differential privacy thompson sampling algorithm privacy budget

发现论文，激发创造

具有本地差分隐私的多臂赌博机

本文探讨了多臂赌博问题在本地差分隐私保证下的遗憾最小化问题，采用差分隐私技术处理用户敏感信息，证明了一种下限并提出算法，数值实验验证了结论。

Jul, 2020

鲁棒和差分隐私随机线性赌博机

本研究使用对数批量查询和不同的隐私模型提出不同关于武断攻击的差分隐私和鲁棒性阿姆淘汰算法，实现同时在随机线性医生问题中提供差分隐私和对手强度的功能，并提供相应的遗憾界限。

Apr, 2023

差分隐私多臂赌博机算法

本研究提出的隐私保护算法在解决随机多臂赌博机问题时，相比之前的成果取得了较大的进展。算法可以保证最优遗憾率 O (Ɛ−1+logT), 通过实验证实了理论界和实践界之间的一致性。

Nov, 2015

带有重尾奖励的差分隐私情节强化学习

本文研究了固定时限表格式 Markov 决策过程在差分隐私约束下进行带有重尾奖赏的问题，提出了两种面向重尾 MDPs 的框架，并探讨了 JDP 和 LDP 模型在两个框架下的后悔上限。

Jun, 2023

私人和强健赌博机

研究私有和强健的多臂赌博机，提出了一种私密且强健的平均估计子例程，基于奖励截断和拉普拉斯机制，旨在实现评估精度、隐私和鲁棒性三者之间的最佳平衡。

Feb, 2023

近似最优差分隐私强化学习

本研究提出一种基于差分隐私约束条件的在线探索强化学习算法，该算法达到了非隐私算法的信息理论下限，同时利用隐私发布噪音技术获得了隐私保护，解决了个性化医疗等隐私数据应用中数据使用安全的问题。

Dec, 2022

具有用户级差分隐私的联邦线性情境赌博机

本文研究联邦线性情境强化学习在用户级差分隐私下的模型，介绍了用户级中心差分隐私和本地差分隐私，并研究了学习遗憾与相应差分隐私保证之间的基本权衡。对于中心差分隐私，提出了一种联邦算法 Robin，并在满足用户级差分隐私的情况下证明了其近乎最优，对于本地差分隐私，获得了一些下界，表明在不同条件下，满足用户级 (ε，δ）-LDP 的学习必须遭受至少 min {1/ε，M} 或 min {1 / 根号下 ε，根号下 M} 的遗憾膨胀因子。

Jun, 2023

具有本地差分隐私的广义线性赌博机

本文介绍了使用本地差分隐私的情境赌博算法，为了在保持用户数据隐私不受侵犯的情况下个性化学习，利用了一种基于随机梯度下降法的估计器和更新机制来确保使用 LDP，并且在广义线性情境中利用了该方法。我们还开发了一个基于最小二乘法的评估器和更新机制，最后通过模拟和实际数据集的实验来证明了算法的性能在强隐私保护的条件下具有相当好的表现。

Jun, 2021

预算多臂老虎机的汤普森抽样

本文将 Thompson sampling 算法扩展到预算限制的 MAB 中，通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新，证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度，通过我们的仿真实验验证了该算法的有效性。

May, 2015

对抗多臂赌博机中实现隐私保护

本文提出了一种结合拉普拉斯机制和 EXP3 的算法，在对抗性赌徒环境中实现 ε 差分隐私，并将最佳已知遗憾界从 O (T^(3/4)) 提高到了 O (T^(2/3))，同时达到了 O (√T ln T/ε) 的决策精度，其在自适应对手中具有良好的鲁棒性，并进行了实验验证。

Jan, 2017