分布式自主在线学习:遗憾和内在隐私保护特性
本文研究在线学习算法的稳定性及其对可学性(有限后悔)的影响,提出了一种称为“前向后悔”的新指标,用于测量在线学习算法的预测性能,证明了对于在线优化问题,稳定性等价于后悔有界,且有界前向后悔等价于有界后悔,在分析现有算法的可学性方面提供了一个简单的方法。
Nov, 2012
本文提出了一种新的分布式在线学习框架,将学习者建模为合作的情境赌博机,分析了分布式在线学习算法和完全知识基准的效率,研究表明后者在时间上失误是亚线性的,该理论框架可用于许多实际应用中,包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。
Aug, 2013
该研究考虑了单人和多人多臂老虎机模型的学习问题,提出了两种可分散策略,即E³ (立方)和E³-TS,它们显示出预期遗憾增长的上限为O(log^(1+ε)T),并解决了分散的在线学习所产生的附加成本问题。
May, 2015
研究异步在线学习设置和代理人网络,探讨了代理人自网络结构中获取信息的效果对后悔程度的影响。当激活是随机时,研究了代理人无需了解网络结构即可达到最优后悔。当激活是对抗性的时候,研究了代理人可以基于网络结构的信息来减少后悔的上界。
Jan, 2019
通过建立连续在线学习(COL)这种新的设置,连续轮次中在线损失函数的梯度会随着学习者的决策而连续变化,我们可以更完整地描述许多有趣的应用,特别地,证明了满足单调EPs(经济平衡问题)能够在COL中实现子线性的静态遗憾。 由此得出的启示是,我们提供了实现子线性动态遗憾的有效算法的条件,即使选择的损失在先验变化预算中没有适应性。 此外,我们还展示了一个从动态遗憾到静态遗憾和相关EP(经济平衡问题)收敛的COL之间的简化,从而允许我们分析许多现有算法的动态遗憾。
Feb, 2019
研究在流言传播模型中的分布式多臂赌博设置在n个。内存受限节点的人口中:在每个回合中,每个节点本地采取m个手臂之一,观察从手臂中获得的回报(敌意选择)分布,然后与随机抽样的邻居进行通信,交换信息以确定其在下一轮中的策略。我们引入和分析了这个任务的几族动力学,这些动力学是分散的;每个节点的决策完全是本地的,并且仅取决于最近获得的奖励及其抽样邻居的奖励。我们展示了这些分散动态的全局演化与某种“零和”乘性权重更新算法之间的联系,并且我们开发了一个通用框架来分析这些自然协议的种群水平遗憾。利用这个框架,在广泛的参数范围下 (即人口规模和臂数),我们推导出静态奖励设置 (每个臂的分布均值随时间固定)和敌意奖励设置(均值随时间可变)的次线性遗憾界。此外,我们还表明,当奖励分布是由随机梯度量规产生时,这些协议可以近似地优化面对单纯形的凸函数。
Jun, 2023
我们在一个能够通过网络与邻居交换信息的设定中研究多任务在线学习。我们介绍了一种分散算法 $ exttt{MT-CO}_2 exttt{OL}$,其遗憾度取决于任务相似性和网络结构之间的相互作用。我们的分析表明,$ exttt{MT-CO}_2 exttt{OL}$的遗憾度(在常数范围内)永远不会比没有信息共享的情况更糟。另一方面,在邻近代理在相似任务上操作时,我们的边界显著改进。此外,我们证明了当损失是线性的时候,我们的算法可以以微不足道的遗憾影响实现差分隐私。最后,我们提供对我们理论的实验支持。
Oct, 2023
我们在分散的在线凸优化中(D-OCO),通过仅使用本地计算和通信来最小化一系列全局损失函数的一组本地学习器。我们首先开发了一种新颖的D-OCO算法,将凸函数和强凸函数的遗憾边界分别降低到O(nρ^{−1/4}√T)和O(nρ^{−1/2}log T)。通过设计一种在线加速的谣言策略并巧妙利用特定网络拓扑的谱特性,我们进一步提高了凸函数和强凸函数的下界为Ω(nρ^{−1/4}√T)和Ω(nρ^{−1/2})。
Feb, 2024
我们提出了一种在线学习算法——通过单调适应性遗憾追踪(SMART)进行切换,它适应数据并实现了在每个输入序列上相对于领导者跟随(FTL)策略的表现和任何其他输入策略的最坏情况保证同时有效的遗憾,通过我们的算法,我们证明SMART政策在任何输入序列上的遗憾在与FTL获得的遗憾和给定最坏情况策略保证的遺憾上都在乘法因子e/(e-1)≈1.58的范围内,同时它是简单易实施的,并通过一种基本的分析方法证明了实例上在线学习相对于滑雪租赁问题的竞争分析的可行性,我们还提出了SMART的一个修改版本,通过将FTL与“小损失”算法相结合,实现了在FTL和小损失遗憾上的实例最优性。
Feb, 2024