数据集增长

May, 2024

Dataset Growth

Ziheng Qin, Zhaopan Xu, Yukun Zhou, Zangwei Zheng, Zebang Cheng...

TL;DRInfoGrowth 是一个高效的在线算法，用于数据清洗和选择，可以提高单模态和多模态任务的数据质量和效率，具有实用的可扩展性。

Abstract

deep learning benefits from the growing abundance of available data. Meanwhile, efficiently dealing with the growing data scale has become a challenge. Data publicly available are from different sources with various qualities, and it is impractical to do manual cleaning against noise a

deep learning data cleaning data selection efficiency infogrowth

发现论文，激发创造

通过数据选择探索实世界图像分类中的数据冗余

提出了两种基于神经突触智能和梯度范数的数据估值指标，通过在线聚类和基于考察数据值的分组提出了新的数据选择算法。在线方法使用逐层模型参数更新和每个时期梯度高效地评估数据，可以使用更少的时期和数据子集（例如，19％-59％）加速模型训练，同时在各种数据集中保持等价的水平，还可以扩展到离线 Coreset 构建，只生成原始数据的 18％-30％子集。

Jun, 2023

深度学习中的数据优化：一项调查

通过对现有文献中的数据优化方法进行分类整理和建立联系，本研究旨在构建一个全面的深度学习数据优化方法分类体系，并探索未来的研究方向。

Oct, 2023

用数据为中心的方法训练深度神经网络减少数据

本论文总结了在数据中心人工智能比赛中的获胜结论，提出了针对小数据集训练的质量增强方法和基于生成对抗网络的数据点生成解决方案，并指出该管道生成的数据集在比基准要小的情况下提高了 5% 的准确度。

Oct, 2021

研究提议：“高质量数据是否足够？

本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Mar, 2022

深度学习对大规模标签噪声具有强韧性

本研究证明，基于深度神经网络的图像分类模型可以从含有数量远多于准确标签的训练数据中进行有效学习，表现出良好的测试性能提升，这种学习需要增加数据集大小作为代价。

May, 2017

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

使用数据增强、Focal Cosine Loss 和集合方法进行图像分类的高效深度学习方法

为提高深度学习模型的性能和泛化能力，本论文提出了数据、损失函数和预测等三个方面的技术，以有效地利用小数据集进行训练。通过利用仅包含每类 50 张图像的 ImageNet 数据，我们取得了高准确率，并在 “数据有效计算机视觉挑战” 中排名第四。

Jul, 2020

用于 SGD 训练模型的数据清理

本文提出了一种算法来检测影响机器学习模型的重要实例，而无需领域知识，该方法利用了随机梯度下降法，并在 MNIST 和 CIFAR10 数据集上进行了实验验证。

Jun, 2019

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

大型公开数据改进差分隐私图像生成质量

使用公共数据可以改善差分隐私机器学习中的隐私准确性权衡，本研究通过使用大规模公共数据改进生成对抗网络 (GANs) 中差分隐私图像生成的质量，并提供了一种有效利用公共数据的改进方法。我们方法的假设是公共数据分布的支持包含私人数据的支持；例如，公共数据来自通用的互联网规模的图像源，而私人数据由特定类型的图像组成。详细评估表明，我们的方法相对于使用公共数据的现有方法，在 FID 分数和其他指标上均达到了 SOTA 水平，并能以差分隐私方式生成高质量真实感的图像。

Aug, 2023