从聚合响应中学习：实例级和包级损失函数

ICLRJan, 2024

从聚合响应中学习：实例级和包级损失函数

Learning from Aggregate responses: Instance Level versus Bag Level Loss Functions

Adel Javanmard, Lin Chen, Vahab Mirrokni, Ashwinkumar Badanidiyuru, Gang Fu

TL;DR由于隐私关切的增加，在许多实际应用中，培训数据在与学习者共享之前被聚合，以保护用户敏感响应的隐私。本文研究了两种用于从聚合响应中学习的自然损失函数：基于包的损失和基于实例的损失。我们展示了实例层面的损失可以被视为包层面损失的正则化形式。我们引入了一种结合这两种方法的新型插值估计器。对于线性回归任务，我们在训练集大小与特征维度成比例的渐近情况下，精确刻画了插值估计器的风险。我们的分析使我们能够从理论上理解不同因素对模型预测风险的影响。此外，我们提出了一种从聚合响应中实现差分隐私学习的机制，并在预测风险 - 隐私权衡方面推导出最佳包大小。我们还进行了彻底的实验证实了我们的理论，并展示了插值估计器的有效性。

Abstract

Due to the rise of privacy concerns, in many practical applications the training data is aggregated before being shared with the learner, in order to protect privacy of users' sensitive responses. In an aggregate learni

privacy concerns aggregate learning loss functions interpolating estimator differentially private learning

发现论文，激发创造

从聚合数据中学习：编辑包和随机包的比较

本文探讨了使用聚合的数据标签训练机器学习模型的可行性，并针对策展袋和随机袋进行了两种自然聚合过程的研究。在策展袋设置下，通过使用聚合标签计算损失函数的梯度，证明我们可以实现不降低性能的基于梯度的训练。在随机袋设置下，基于 Rademacher 复杂度提供了一种广义风险边界，并展示了如何通过经验风险最小化进行正则化以实现最小风险界限，我们的实验结果表明，聚合学习可以有效地保护用户隐私并保持模型精度。

May, 2023

PriorBoost：一种自适应聚合响应学习算法

研究聚合反馈学习的算法，重点关注事件级损失函数的聚合集（文献中称为 bags）的构建。理论上证明了对于线性回归和广义线性模型（GLMs），最优的 bagging 问题可以简化为一维受约束的 k 均值聚类问题。进一步地，定量地证明了使用精心选择的聚合集相比于随机聚合集的优势。然后，提出了适应性形成样本聚合集的 PriorBoost 算法，以改善模型质量，聚合集与（未观测到的）个体反馈越来越同质化。研究了用于聚合学习的标签差分隐私，并通过广泛实验表明，PriorBoost 定期实现了事件级预测的最优模型质量，与非适应性算法形成鲜明对比。

Feb, 2024

聚合输出的回归主动学习

提出使用互信息测量方法的主动学习模型，使用 Bayesian linear basis functions 模型，在训练聚合数据的回归模型时减少标注集的成本，并实现更好的预测性能。

Oct, 2022

聚合实现的标签差分隐私保护

本研究首次证明了在回归任务中，使用加权聚合方法（不需要或只需很小的附加噪声）可实现标签差分隐私（label-DP）。

Oct, 2023

一种公理化方法的损失汇总及适应性汇总算法

针对在线学习推荐的一种变体聚合算法，该算法基于广义聚合函数，具有与 AA 相似的理论性质，如贝叶斯更新和对广义和损失的时间无关边界。

Jun, 2024

从聚合观察中学习

本文提出了一个概率框架，将多实例学习扩展到多类分类和回归等其他问题，并引入一种新的一致性概念来表征估计器，证明了在温和的假设下具有良好的收敛性。实验证明，该方法在三种问题设置中具有有效性。

Apr, 2020

通用损失下的最优二分类器集成

本文旨在解决半监督二分类集合聚合问题，以最小化在未标记数据上产生的预测损失，并找到了一类最小 - 最大最优预测。结果是一组半监督集合聚合算法，能像线性学习一样高效，但无需放松任何限制。它们的决策规则采用决策理论中熟悉的形式，将 Sigmoid 函数应用于集合边缘的概念，而不需要通常在基于边缘的学习中做出的假设。

Oct, 2015

平衡偏倚和方差的主动弱监督学习

提出了一个新颖的主动式深度多实例学习方法，该方法采样少量信息实例进行注释，旨在显著提高实例级预测。通过设计方差正则化损失函数来平衡实例级别预测的偏差和方差，以便有效控制多实例学习中高度不平衡的实例分布及其他基本挑战，并通过分布鲁棒的袋级似然作为其凸替代，使得其能够平衡偏差和方差，通过强大的理论保证提供方差基于 MIL 损失的良好近似。然后，将该鲁棒性袋似然与深度体系结构自然集成，以支持使用正负袋对的小批量进行深度模型训练。最后，开发了一个结合概率向量和预测实例得分的新型 P-F 采样函数，可以探索最具挑战性的袋并有效地检测其正实例进行注释，从而显著改进实例级预测。多个真实世界数据集上的实验清楚地证明了该模型所达到的最先进实例级预测性能。

Jun, 2022

MixBag: 标签比例学习的包级数据增强

提出了一种基于袋级数据增强的学习方法 MixBag，该方法可应用于实例级数据增强技术和使用比例损失的任何学习方法，并通过实验证明了其优势和有效性。

Aug, 2023

统计汇聚的本地风险界限

本文研究了聚合理论中的统计学设置，并通过用较小的局部复杂度替换全局复杂度来加强经典聚合理论的结果，包括基于 Leung 和 Barron 的指数权重估计器的局部经典简单限制，并针对 Q - 聚合估计器提出了偏差最优限制。

Jun, 2023