本论文探讨的是使用组注释的数据进行分类模型训练的问题,提出了一个新的算法,旨在通过鼓励学习跨各种组共享的特征来提高少数族裔的性能。通过在标准基准测试中进行实证研究,证明了本文提出的算法在不同组别和少数族裔上的表现要好于 ERM 和 Group-DRO 等强基线。同时,论文也从理论上证明了所提出算法是一种下降方法,并且可以找到平稳点。
Oct, 2021
通过结合聚类和风险度量的最小化算法,实现数据集精炼,具备对子群体的有效泛化和稳健性,为解决合成数据集在面对低人口密度地区样本时表现优秀的问题提供了理论依据和数值实验验证。
Feb, 2024
本文针对面部识别中 logits 蒸馏的性能较差问题,提出分组知识蒸馏算法组(GKD),通过分割 logits 并将蒸馏分为主要知识,次要知识和二进制知识,仅保留主要知识和二进制处理,忽略次要知识,从而提高轻量级学生模型的性能
Apr, 2023
知识蒸馏将大模型的知识转移到小模型上,近年来取得了显著成就。然而,对于知识蒸馏在分布转移方面的机制,研究还很少。本文通过在转移情况下重新构建目标函数,重新思考了知识蒸馏的范式。在真实情景下,我们提出了一个统一而系统的框架,对两个常见的分布转移包括多样性和相关性转移进行了知识蒸馏的基准测试。评估基准涵盖了来自算法、数据驱动和优化角度的 30 多种方法,用于五个基准数据集。总体上,我们对学生模型进行了大量实验。我们揭示了在分布转移下教学性能的有趣观察结果;尤其是,在许多情况下,复杂的算法和数据增强只能带来有限的收益。
Dec, 2023
本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法,并将数据子集选择的思想与数据集精馏相结合,通过相对贡献的实例的概念优化性能。
Jul, 2023
本文提出了一种新的概率组成员身份的框架 PG-DRO,以解决现代机器学习模型易受特定样本组内平均相关性的干扰的问题,通过考虑软组成员身份而不是硬组注释,该框架可以灵活生成组概率,从而更好地适应样本组成员身份模糊的情况,并在图像分类和自然语言处理基准测试中得到了优越性能。
Mar, 2023
知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法,但现有方法在原始训练数据不可用时往往不可行。为解决这个问题,该文提出了一种名为 “不同分布知识蒸馏” 的新方法(KD$^{3}$),其包括三个组件:从互联网收集训练实例,通过教师网络和学生网络的综合预测动态选择有用的训练实例;对齐两个网络的特征和分类器参数进行知识记忆;新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明,KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。
本文提出了一种双层蒸馏网络框架 OKDDip,其中包括多个辅助对等体和一个领导群体,辅助对等体通过注意力机制获取自己的预测目标,来作为组群内部的目标进行蒸馏学习,然后再将知识传递给领导群体,实现知识转移。实验结果表明,该框架在训练或推理复杂度上不会牺牲性能,相较于现有方法,可以提供更好的蒸馏效果。
Dec, 2019
本研究提出了一种分布鲁棒的随机优化框架,利用凸形式化来解决学习模型受到数据生成分布扰动的问题,并通过多项收敛性保准来证明模型的可靠性,同时也得出了极限定理及有关泛化到未知人群、精细化认知等真实任务的证据。
Oct, 2018
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018