具有有限数据保留的在线算法

Apr, 2024

Online Algorithms with Limited Data Retention

Nicole Immorlica, Brendan Lucier, Markus Mobius, James Siderius

TL;DR引入带有数据保留约束条件的在线算法模型，在多维均值估计和线性回归问题中展示了多维随机子集和对抗噪声模型在模拟随机梯度下降的进展方面的最新进展。

Abstract

We introduce a model of online algorithms subject to strict constraints on data retention. An online learning algorithm encounters a stream of data points, one per round, generated by some stationary process. Cru

online algorithms data retention multidimensional mean estimation linear regression stochastic gradient descent

发现论文，激发创造

忘记你想忘记的：机器遗忘算法

本文研究了在已训练好的模型中删除数据点的相关问题，特别是在凸损失的情况下提供了一个算法来取消学习的样本数，与差分隐私学习相比，演示了差分隐私和机器遗忘之间的新颖区别。

Mar, 2021

统计学习和估计的在线与分布式算法的基本极限

本文探讨了机器学习中的信息约束，包括内存、通信、数据部分读取等约束对算法性能的影响，并得出针对不同情形，在特定限制下，算法表现将不如无限制情形的结论。

Nov, 2013

基于数据相关遗憾分析的在线核选择在记忆约束下的学习能力

在线核选择是在线核方法的基础问题之一。本文研究了在线核选择在内存约束下的问题，通过提供数据相关的上界，展示了在线可学习性、内存约束和数据复杂度之间的权衡关系。我们提出了一种算法框架，针对两类损失函数分别给出了数据相关的上界，并通过理论证明和实证验证，展示了算法性能。

Jul, 2024

分布式自主在线学习：遗憾和内在隐私保护特性

本文研究了基于分布式数据源的在线学习，提出了一种新的算法，可以保障网络中的隐私。该算法使用通信网络中的本地数据源更新本地参数，并且在网络中的一个小子集周期性地交换信息。我们导出了强凸函数的遗憾界，我们的算法有内在的隐私保护性质，且证明了网络中的隐私保护的必要和充分条件。

Jun, 2010

终身学习的遗憾界限

本文提出了一种在线的迁移学习方法，通过对任务内算法中底层的数据表示进行改进，实现跨任务信息转移，同时证明了该方法拥有良好的成本控制性质，并讨论了其在字典学习和有限预测器中的应用。

Oct, 2016

下降至删除：基于梯度的机器遗忘方法

本文研究了凸模型的数据删除问题，通过利用凸优化和水库取样技术，我们提出了第一个能够处理任意长的对抗性更新序列的数据删除算法，并承诺每次删除的运行时间和稳态误差均不随更新序列的长度而增长。此外，我们还引入了几个新的概念区分。我们可以要求删除后，整个优化算法维护的状态与重新训练应该获得的状态在统计上难以区分，也可以要求仅使可观测输出在统计上难以区分。在这种较弱的删除标准下，我们能够给出更有效的删除算法。

Jul, 2020

在线学习中记忆 - 遗憾平衡的近乎最优解

研究了如何在没有足够空间记住所有专家时，有效地跟踪专家建议并取得好的结果，并给出了优化算法和相应的理论下界。

Mar, 2023

折扣自适应在线预测

在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念，我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法，改进了传统的非自适应算法，即使用固定学习率的梯度下降算法。具体而言，我们的理论保证不需要任何除了凸性之外的结构假设，该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测，我们进一步展示了这些好处，它是一个具有集合成员决策的下游在线学习任务。

Feb, 2024

机器学习中的数据删除：让人工智能忘掉您

研究了如何在不影响模型质量的情况下，有效地删除机器学习模型中的个人数据，针对 k-means 聚类模型，提出了两个可靠且高效的删除算法，平均删除效率提高了 100 倍以上。

Jul, 2019

机器学习模型中的数据近似删除

本文提出了一种新的线性模型和逻辑模型的近似删除方法，其计算成本在特征维度 d 上是线性的，并且独立于训练数据数量 n。我们还开发了一种新的特征注入测试方法，以评估从机器学习模型中删除数据的彻底性。

Feb, 2020