从聚合数据中学习：编辑包和随机包的比较

May, 2023

从聚合数据中学习：编辑包和随机包的比较

Learning from Aggregated Data: Curated Bags versus Random Bags

Lin Chen, Thomas Fu, Amin Karbasi, Vahab Mirrokni

TL;DR本文探讨了使用聚合的数据标签训练机器学习模型的可行性，并针对策展袋和随机袋进行了两种自然聚合过程的研究。在策展袋设置下，通过使用聚合标签计算损失函数的梯度，证明我们可以实现不降低性能的基于梯度的训练。在随机袋设置下，基于 Rademacher 复杂度提供了一种广义风险边界，并展示了如何通过经验风险最小化进行正则化以实现最小风险界限，我们的实验结果表明，聚合学习可以有效地保护用户隐私并保持模型精度。

Abstract

Protecting user privacy is a major concern for many machine learning systems that are deployed at scale and collect from a diverse set of population. One way to address this concern is by collecting and releasing

user privacy machine learning aggregated data labels curated bags random bags

发现论文，激发创造

从聚合响应中学习：实例级和包级损失函数

由于隐私关切的增加，在许多实际应用中，培训数据在与学习者共享之前被聚合，以保护用户敏感响应的隐私。本文研究了两种用于从聚合响应中学习的自然损失函数：基于包的损失和基于实例的损失。我们展示了实例层面的损失可以被视为包层面损失的正则化形式。我们引入了一种结合这两种方法的新型插值估计器。对于线性回归任务，我们在训练集大小与特征维度成比例的渐近情况下，精确刻画了插值估计器的风险。我们的分析使我们能够从理论上理解不同因素对模型预测风险的影响。此外，我们提出了一种从聚合响应中实现差分隐私学习的机制，并在预测风险 - 隐私权衡方面推导出最佳包大小。我们还进行了彻底的实验证实了我们的理论，并展示了插值估计器的有效性。

Jan, 2024

PriorBoost：一种自适应聚合响应学习算法

研究聚合反馈学习的算法，重点关注事件级损失函数的聚合集（文献中称为 bags）的构建。理论上证明了对于线性回归和广义线性模型（GLMs），最优的 bagging 问题可以简化为一维受约束的 k 均值聚类问题。进一步地，定量地证明了使用精心选择的聚合集相比于随机聚合集的优势。然后，提出了适应性形成样本聚合集的 PriorBoost 算法，以改善模型质量，聚合集与（未观测到的）个体反馈越来越同质化。研究了用于聚合学习的标签差分隐私，并通过广泛实验表明，PriorBoost 定期实现了事件级预测的最优模型质量，与非适应性算法形成鲜明对比。

Feb, 2024

聚合实现的标签差分隐私保护

本研究首次证明了在回归任务中，使用加权聚合方法（不需要或只需很小的附加噪声）可实现标签差分隐私（label-DP）。

Oct, 2023

是否聚合？在带有不同噪声标签下的学习

本文分析了在标签噪声率高或标注者 / 注释数量不足时，标签分离优于标签聚合的情况，并在众包产生的有噪声标签下通过理论分析和实证结果验证了这个结论。

Jun, 2022

聚合输出的回归主动学习

提出使用互信息测量方法的主动学习模型，使用 Bayesian linear basis functions 模型，在训练聚合数据的回归模型时减少标注集的成本，并实现更好的预测性能。

Oct, 2022

使用最大熵模型从汇总数据中学习

本文研究了如何通过最大熵假设来学习到未观测特征分布的新模型，并将其应用于一类常见的隐私数据集聚合模式中，从而使得该模型在相应公共数据集上的性能与传统逻辑回归模型在全数据集上训练的性能相当。

Oct, 2022

装袋法显著提升泛化效果

通过在参数化级别适当地聚合基学习器而非输出级别，Bagging 能够以指数衰减减少慢慢消失的推广误差，从而显著提升推广性能。

May, 2024

在联邦学习中防范多轮隐私泄露：保障安全聚合

本研究提出一种具有多轮隐私保障的安全聚合框架，包括一个新的衡量指标来量化联邦学习的隐私保证，并开发了一种结构化的用户选择策略来保证每个用户的长期隐私（在任意数量的训练轮次下），并在 MNIST 和 CIFAR-10 数据集上进行了实验。

Jun, 2021

Bagging 方法抵抗数据污染攻击的内在认证鲁棒性

本文研究了机器学习训练集中存在的数据污染攻击以及集成学习中的 Bootstrap Aggregating 方法可以预防此类攻击。我们证明了 Bagging 可以在随机采样训练集的基础上使用多个基础模型进行学习，并在测试时使用多数表决方法进行预测，在受到污染的数据范围内，仍然能够是预测结果正确的概率保持不变。我们在 MNIST 和 CIFAR10 数据集上进行了实验，证明了该方法的正确性，同时开源代码供参考。

Aug, 2020

集成学习中的进化赋权算法

本论文提出了一种利用进化算法来优化学习数据子集之间差异性的基于 bagging 的集成学习算法，并表明该算法在多个基准数据集上的性能优于传统的 bagging 和随机森林方法，同时能够在性能准确性不降低的情况下维持多样性的集合。

Aug, 2022