关于局部隐私线性情境赌博机的最佳后悔

Apr, 2024

关于局部隐私线性情境赌博机的最佳后悔

On the Optimal Regret of Locally Private Linear Contextual Bandit

Jiachun Li, David Simchi-Levi, Yining Wang

TL;DR通过分析均值绝对偏差误差和分层主成分回归，我们展示了一种能够在局部隐私线性情境播放机中实现 O(√T) 累积遗憾上界的解决方案。

Abstract

contextual bandit with linear reward functions is among one of the most extensively studied models in bandit and online learning research. Recently, there has been increasing interest in designing \emph{

发现论文，激发创造

线性上下文多臂赌博机和背包问题

本文研究了带有资源消耗的线性情境赌博机问题，算法具有近乎最优的遗憾界，并将技术从Solution综述中的线性情境赌博机，背包赌博机和在线随机填充问题中结合使用。

Jul, 2015

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

差分隐私上下文线性赌博机

本篇论文研究了解决上下文线性赌博机问题的隐私学习算法，其中采用联合差分隐私的定义将经典的线性-UCB算法转换成联合差分隐私算法，并在其中使用高斯噪声或Wishart噪声，使结果算法的遗憾得到了限制。此外，还给出了任何MAB问题私有算法必须产生的额外遗憾的第一个下限。

Sep, 2018

无限臂线性情境赌博机的紧束悔恨界

本文研究线性上下文赌博机，特别是具有更改的无穷动作集的情况下的情况。我们证明了一种悔恨上界，其与以前的下界相匹配。

May, 2019

平滑上下文强化学习：连接参数化和不可微性遗憾模式

该研究讨论了非参数上下文赌博问题，研究了函数的Hölder类和光滑度参数β之间的插值关系，提出了一种新算法，能够调整到各种光滑度设置，并通过确立匹配的上下限证明其遗憾是速率最优的，从而弥合了现有文献关于参数和非可区分性情境赌徒问题，以及仅使用全局或本地信息的赌徒算法之间的差距，同时也揭示了上下文赌徒问题中的复杂性和遗憾之间关键性的相互影响。

Sep, 2019

局部差分隐私（情境型）Bandits学习

本文研究局部差分隐私策略下的赌博机学习。我们提出了一种简单的黑盒归约框架，可以解决大量的无上下文赌博机学习问题，同时保证局部差分隐私。这个框架在真实应用中更具吸引力。此外，我们将其扩展到广义线性赌博机，并推测它是近乎最优的。

Jun, 2020

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

具有本地差分隐私的广义线性赌博机

本文介绍了使用本地差分隐私的情境赌博算法，为了在保持用户数据隐私不受侵犯的情况下个性化学习，利用了一种基于随机梯度下降法的估计器和更新机制来确保使用LDP，并且在广义线性情境中利用了该方法。我们还开发了一个基于最小二乘法的评估器和更新机制，最后通过模拟和实际数据集的实验来证明了算法的性能在强隐私保护的条件下具有相当好的表现。

Jun, 2021

突破sqrt(T)壁垒:随机情境线性老虎机具有无关实例的对数遗憾

本文提出了一种名为LR-SCB的低后悔随机情境赌博算法，可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔，并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。

May, 2022

对抗性线性情境赌博机的一阶和二阶边界

考虑对抗性线性上下文赌博机设置，文中给出了一种新的算法，通过利用与不需要上下文设置的线性赌博机的新联系，利用连续指数权重算法在概率单形上的一个截断版本来获得结果，并证明了其结果优于最坏情况下的后悔，特别的当环境相对温和时，考虑了上下文的密度是对数凹的情况，给出了一种同时优于二阶和一阶损失的方法。

May, 2023