聚合实现的标签差分隐私保护
提出了一种基于袋级数据增强的学习方法 MixBag,该方法可应用于实例级数据增强技术和使用比例损失的任何学习方法,并通过实验证明了其优势和有效性。
Aug, 2023
通过学习标签比例 (LLP),我们提出了一种新的算法框架,其中迭代地执行伪标签和嵌入改进两个主要步骤,利用 Gibbs 分布和 Belief Propagation,在不牺牲计算效率的情况下,取得了标签比例学习问题上的显著改进。
Oct, 2023
我们提出了一种向量逼近方法,将每个标签转换成具有 K 个分量的随机向量,其期望值反映类别条件概率,该方法在理论上只略微下降,并通过实验证实了我们的理论分析和方法的实际性能。
May, 2024
本文研究了分布式估计和学习问题。利用线性聚合方案和调整的随机化方案,通过交换信息,聚合数据并在保护个体隐私的前提下估计未知特征值。通过对一些例子的验证,证明该算法的高效性和性能保障。
Jun, 2023
基于标签比例(LLP)的学习是一种监督学习的推广,通过一些包含特征向量集合或袋子(实例),以及每个袋子的平均实例标签来提供训练数据,目标是训练一个良好的实例分类器。在本文中,我们展示了使用 LTFs 能够在给定某些具有一定标签比例的随机袋子时,通过访问这些数据对线性阈值函数(LTFs)进行有效学习的可能性。我们的算法使用次高斯浓度界限估计均值和协方差矩阵,并展示了如何应用于有效采样袋子以近似法向量。通过在袋子设置中提供新的泛化误差界限,我们展示了如何识别具有较低误差的假设 LTF。
Oct, 2023
在隐私设置和弱监督下,我们提出了一种新的基线技术 DLLP 的不规则性,以及与 LLP 下的通用性边界争论相结合的基于自我监督目标的新公式,该方法在 87% 的实验配置中比基线模型取得更好的结果,实验涵盖了长篇和短篇文本的大规模模型,并使用多个度量标准进行评估。
Oct, 2023
本文介绍了一种在无标注训练样本的情况下,通过使用深度神经网络,并引入一种新正则化层 Batch Averager,将有标注数据的深度神经网络转换为无标注学习(LLP)的方法。本文还提出了一种协同训练算法,以支持可能由图片和文本组成的数据域。作者通过 Twitter 用户的 tweets 和个人资料图片,预测 Twitter 用户的性别和种族 / 民族信息,并发现深度 LLP 方法在文本和图片分类方面均优于基线方法,并且协同训练算法可以将文本和图片分类的绝对 F1 值分别提高 4%和 8%。最后,采用文本和图片分类器的集合进一步平均提高了绝对 F1 值 4%。
Sep, 2017
该论文研究了从标签比例中学习的问题,针对现有基于深度学习的方法中优化目标与给定比例不一致的问题,通过对分类器施加比例验证的连续训练阶段以及引入混合策略和 Symmetric Crossentropy 方法来降低标签噪声,提高了分类性能。
May, 2021
采用微分隐私概念,提出一种在模型聚合之前加入人工噪音的差分隐私框架,证明该框架可以在不同保护级别下满足差分隐私。同时,优化了聚合轮数、系统总参与用户数和随机选取的用户数,实现了在不同隐私保护和性能要求下的隐私保护联邦学习算法设计,并通过仿真实验证明了该理论的正确性。
Nov, 2019
弱监督学习问题中的主题是来自标签比例的学习,研究了多种实现分类损失的标准,包括经典的实证比例风险最小化、去偏差的比例平方损失和最近提出的 EasyLLP 学习规则,这些规则在可实现和不可知设置中均取得了 “乐观速率”,并且在样本复杂度上接近最优(log 因子)。
Jun, 2024