用于 SGD 训练模型的数据清理

Jun, 2019

Data Cleansing for Models Trained with SGD

Satoshi Hara, Atsushi Nitanda, Takanori Maehara

TL;DR本文提出了一种算法来检测影响机器学习模型的重要实例，而无需领域知识，该方法利用了随机梯度下降法，并在 MNIST 和 CIFAR10 数据集上进行了实验验证。

Abstract

data cleansing is a typical approach used to improve the accuracy of machine learning models, which, however, requires extensive domain knowledge to identify the →

data cleansing machine learning models influential instances stochastic gradient descent accuracy

发现论文，激发创造

少量干净实例帮助去噪远程监督

本文研究远程监督关系提取器的质量问题，旨在通过清洗少量数据以提高模型预测效果，并引入影响函数及师生机制来筛选优质实例和控制中间结果的纯度，取得了良好的去噪效果。

Sep, 2022

数据丢弃：优化卷积神经网络的训练数据

本文运用深度学习中的卷积神经网络构建了一种 Two-Round 训练方法，定位和排除不利于提高泛化准确性的训练样本，从而提高了基于图像分类和降噪的高级和低级计算机视觉任务的处理性能。

Sep, 2018

充分利用数据：改变训练数据分布以提高内分布泛化性能

我们通过比较梯度下降（GD）和锐度感知最小化（SAM）的归纳偏差，证明了 SAM 在早期阶段更均匀地学习易于和困难的特征，因此我们提出了一种基于网络输出的示例聚类算法并上采样那些没有易于特征的示例，从而改善了原始数据分布上（S）GD 的泛化性能。同时，我们证明该方法与 SAM 和现有的数据增强策略相结合，在 CIFAR10、STL10、CINIC10、Tiny-ImageNet 上训练 ResNet18，在 CIFAR100 上训练 ResNet34，以及在 CIFAR10 上训练 VGG19 和 DenseNet121 中，取得了目前最佳的性能。

Apr, 2024

数据集增长

InfoGrowth 是一个高效的在线算法，用于数据清洗和选择，可以提高单模态和多模态任务的数据质量和效率，具有实用的可扩展性。

May, 2024

AI 模型卸载：方法与选择

本文介绍了一种可能有效的机器学习技术 ——model disgorgement，在确保数据道德和知识产权保护的前提下，去除训练集数据的缺陷并消除对训练模型带来的不良影响。

Apr, 2023

机器学习模型中的数据近似删除

本文提出了一种新的线性模型和逻辑模型的近似删除方法，其计算成本在特征维度 d 上是线性的，并且独立于训练数据数量 n。我们还开发了一种新的特征注入测试方法，以评估从机器学习模型中删除数据的彻底性。

Feb, 2020

纠正机器遗忘

机器学习模型面对大规模互联网数据集引起的数据完整性挑战，本研究探讨在检测到数据被篡改或错误时模型开发者能够做出的应对措施。我们将 “修正机器遗忘” 定义为解决训练模型中受未知篡改影响数据的问题，尽管只能知道受影响样本的一个小部分。我们发现修正遗忘问题与传统的注重隐私的遗忘方法有显著不同的要求。我们希望我们的工作能促进对修正遗忘方法的研究，为处理来自于大规模网络训练带来的数据完整性挑战的从业者提供新的策略。

Feb, 2024

逆梯度匹配的精简数据模型

通过在线和离线阶段，我们提出了一种高效的框架，评估训练数据对目标模型的影响，通过反向梯度匹配问题建立了一个精简同义词集，用于加速离开一个样本的过程，并计算评估目标基于的归因矩阵。实验证明，相比直接重新训练方法，我们的方法在实现了可比较的模型行为评估的同时，显著加快了过程。

Apr, 2024

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

高维推断中的非凸损失在线随机梯度下降

研究了 SGD 算法在高维参数空间下最简单在线版本的性能，通过对样本数量的阈值来确定参数估计的一致性，其阈值是多项式维度的，取决于信息指数。

Mar, 2020