用于 SGD 训练模型的数据清理
本文研究远程监督关系提取器的质量问题,旨在通过清洗少量数据以提高模型预测效果,并引入影响函数及师生机制来筛选优质实例和控制中间结果的纯度,取得了良好的去噪效果。
Sep, 2022
本文运用深度学习中的卷积神经网络构建了一种 Two-Round 训练方法,定位和排除不利于提高泛化准确性的训练样本,从而提高了基于图像分类和降噪的高级和低级计算机视觉任务的处理性能。
Sep, 2018
我们通过比较梯度下降(GD)和锐度感知最小化(SAM)的归纳偏差,证明了 SAM 在早期阶段更均匀地学习易于和困难的特征,因此我们提出了一种基于网络输出的示例聚类算法并上采样那些没有易于特征的示例,从而改善了原始数据分布上(S)GD 的泛化性能。同时,我们证明该方法与 SAM 和现有的数据增强策略相结合,在 CIFAR10、STL10、CINIC10、Tiny-ImageNet 上训练 ResNet18,在 CIFAR100 上训练 ResNet34,以及在 CIFAR10 上训练 VGG19 和 DenseNet121 中,取得了目前最佳的性能。
Apr, 2024
本文介绍了一种可能有效的机器学习技术 ——model disgorgement,在确保数据道德和知识产权保护的前提下,去除训练集数据的缺陷并消除对训练模型带来的不良影响。
Apr, 2023
本文提出了一种新的线性模型和逻辑模型的近似删除方法,其计算成本在特征维度 d 上是线性的,并且独立于训练数据数量 n。我们还开发了一种新的特征注入测试方法,以评估从机器学习模型中删除数据的彻底性。
Feb, 2020
机器学习模型面对大规模互联网数据集引起的数据完整性挑战,本研究探讨在检测到数据被篡改或错误时模型开发者能够做出的应对措施。我们将 “修正机器遗忘” 定义为解决训练模型中受未知篡改影响数据的问题,尽管只能知道受影响样本的一个小部分。我们发现修正遗忘问题与传统的注重隐私的遗忘方法有显著不同的要求。我们希望我们的工作能促进对修正遗忘方法的研究,为处理来自于大规模网络训练带来的数据完整性挑战的从业者提供新的策略。
Feb, 2024
通过在线和离线阶段,我们提出了一种高效的框架,评估训练数据对目标模型的影响,通过反向梯度匹配问题建立了一个精简同义词集,用于加速离开一个样本的过程,并计算评估目标基于的归因矩阵。实验证明,相比直接重新训练方法,我们的方法在实现了可比较的模型行为评估的同时,显著加快了过程。
Apr, 2024