利用边际排名下的面积识别错误标记的数据

Jan, 2020

利用边际排名下的面积识别错误标记的数据

Identifying Mislabeled Data using the Area Under the Margin Ranking

Geoff Pleiss, Tianyi Zhang, Ethan R. Elenberg, Kilian Q. Weinberger

TL;DR文章提出了一种新方法，使用区域下的边缘（AUM）统计量识别训练集中的错误标记数据，并通过添加一个带有特定错误标记样本的额外类来学习 AUM 上限以分离标记错误的数据。在 WebVision50 分类任务中，该方法去除了 17％的训练数据，产生了 1.6％（绝对）的测试误差改进，在 CIFAR100 上删除 13％的数据可导致 1.2％的误差下降。

Abstract

Not all data in a typical training set help with generalization; some samples can be overly ambiguous or outrightly mislabeled. This paper introduces a new method to identify such samples and mitigate their impact when training neural networks. At the heart of our algorithm is the Area Under the Margin (AUM) statistic, which exploits differences in the train

machinelearning neuralnetworks trainingdatasets mislabelleddata datacleaning

发现论文，激发创造

基于动态数据过滤的训练可能不适用于自然语言处理数据集

探讨了使用 Area Under the Margin（AUM）度量方法来识别和去除 / 修正自然语言处理数据集中错误标记的样本，表明该方法可以滤除 NLP 数据集中的错误标记，但也会去除大量正确标记点并导致大量相关语言信息的丧失。模型依靠分布信息而非依赖句法和语义表示。

Sep, 2021

使用边缘下面积和显著性指导混合训练对预训练语言模型进行校准

本文研究了 mixup 训练在自然语言理解（NLU）任务的作用，提出了一种用于预训练语言模型的 mixup 策略，并与模型 miscalibration 修正技术相结合来提高模型校准的方法，实验结果表明该方法在低预期的校准误差方面具有竞争优势。

Mar, 2022

AUC-mixup：混合深度 AUC 最大化

通过混合数据增强技术，即 AUC-mixup 损失，改进了 DAM 在小样本数据集上的推广性能，该方法在不平衡的基准和医学图像数据集上比标准的 DAM 训练方法表现更有效。

Oct, 2023

使用具有标签分布感知边缘损失函数学习不平衡数据集

为了解决深度学习在类别分布不平衡的情况下训练表现差的问题，本研究提出了两种新的方法：一、设计了基于理论的标签分布感知边界 (LDAM) 损失函数；二、提出了一种简单而有效的训练策略来推迟重新加权，并在减轻权重的复杂性的同时实现模型对初始表示的学习，实验结果表明这两种方法能够提高模型性能。

Jun, 2019

PUMA：基于边缘的数据修剪

深度学习在分类准确性方面已经能够超过人类在许多任务上的表现。然而，为了实现对抗性扰动的稳健性，最佳方法通常需要对更大的训练集进行对抗性训练，而这些训练集通常是通过生成模型（如扩散模型）进行增强的。在本文中，我们的主要目标是减少这些数据要求，同时实现相同或更好的准确性 - 稳健性权衡。我们聚焦于数据修剪，即根据模型分类边界（即边际）与训练样本之间的距离，移除一些训练样本。我们发现，现有方法在添加大量合成数据时剪枝低边际样本无法提高稳健性，并通过感知器学习任务解释了这种情况。此外，我们发现，通过修剪高边际样本以提高准确性会增加对抗性训练中错误标记扰动数据的有害影响，损害稳健性和准确性。因此，我们提出了一种名为 PUMA 的新数据修剪策略，使用 DeepFool 计算边际，并通过联合调整最低边际样本的训练攻击范数来修剪具有最高边际的训练样本，从而不损害性能。我们展示了 PUMA 可以在当前最先进的稳健性方法之上使用，并且能够显著提高模型性能，而现有的数据修剪策略无法做到这一点。PUMA 不仅在更少的数据情况下实现了类似的稳健性，还显著提高了模型的准确性，改善了性能权衡。

May, 2024

仅从相关关键词和未标记文档中学习

本文提出了一个理论上有保证的学习框架，用于无标签文档的分类问题，该框架可以灵活选择模型，并且有效地优化了接收器操作特征曲线下的面积，并在基准数据集上展示了其有效性。

Oct, 2019

一种强健的 AUC 最大化框架，同时进行异常值检测和特征选择用于正 - 未标注分类

提出了一个强健的学习框架，它将 AUC 最大化，异常值检测和特征选择相结合，以解决正样本未标记（Positive-Unlabeled）分类问题。通过理论分析和实验验证，表明该模型是有效的。

Mar, 2018

多个未标记数据集的 AUC 优化

本文研究如何从多个未标注数据集中构建一个 AUC 优化模型，提出了一种称为 U^m-AUC 的方法，将 U^m 数据转化为多标签 AUC 优化问题，可以有效地进行理论与实证研究。

May, 2023

最大边缘损失学习不平衡数据集

本文设计了一种新的最大边距 (MM) 损失函数来解决类不平衡数据中存在的分类不平衡问题，并探讨了两种基于最大边界的决策边界位移方法在 LDAM 训练日程上的表现。

Jun, 2022

不确定性中寻求合适的平衡

利用贝叶斯不确定性估计解决类别不平衡学习的问题，并且成功改进了面部验证、属性预测、数字 / 物体识别、皮肤病检测等六个基准数据集上的分类性能。

Jan, 2019