研究提议：“高质量数据是否足够？

Mar, 2022

研究提议：“高质量数据是否足够？

A Proposal to Study "Is High Quality Data All We Need?"

Swaroop Mishra, Anjana Arunkumar

TL;DR本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Abstract

Even though deep neural models have achieved superhuman performance on many popular benchmarks, they have failed to generalize to OOD or adversarial datasets. Conventional approaches aimed at increasing robustness include developing increasingly large models and augmentation with large

deep neural models generalization large scale datasets high quality data data pruning

发现论文，激发创造

用数据为中心的方法训练深度神经网络减少数据

本论文总结了在数据中心人工智能比赛中的获胜结论，提出了针对小数据集训练的质量增强方法和基于生成对抗网络的数据点生成解决方案，并指出该管道生成的数据集在比基准要小的情况下提高了 5% 的准确度。

Oct, 2021

DsDm: 使用数据模型的模型感知数据集选择

利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集，避免主观标准，并明确了学习过程如何利用训练数据进行目标任务的预测，从而极大地提高了语言模型的性能。

Jan, 2024

通过数据重要性外推在对抗训练中进行大规模数据集剪枝

基于从小数据集外推数据重要性分数的数据修剪策略，在保持鲁棒性的同时有效地减小数据集大小。

Jun, 2024

深度学习中的数据优化：一项调查

通过对现有文献中的数据优化方法进行分类整理和建立联系，本研究旨在构建一个全面的深度学习数据优化方法分类体系，并探索未来的研究方向。

Oct, 2023

小数据，大决策：小数据情境下的模型选择

本文通过实验证明，相比于之前研究中通常考虑模型大小因素对性能的影响，训练数据集的大小对模型性能的影响同样显著，实验结果发现，训练更小的数据子集可以带来更可靠的模型选择决策同时降低计算成本，并能估算出常见数据集在现代神经网络结构下的最小描述长度，为采用奥卡姆剃刀原则进行负责的模型选择提供了可能性。

Sep, 2020

关于探测的数据需求

本研究探索寻找一种数量化方法，以估算合理的探测数据集大小，旨在构建一个系统性的诊断神经自然语言处理 (NLP) 模型探测数据集的框架。通过几个案例研究，我们验证了我们的估算具有足够的统计功效。

Feb, 2022

基于模型的鲁棒深度学习：泛化到自然的离群数据

文章提出了从基于扰动的对抗鲁棒性转向基于模型的鲁棒深度学习的新范式，并探讨了使用深度生成模型来学习自然变化模型并进一步提高深度学习对于自然变化的鲁棒性的三种新型算法，实验表明，该方法在自然情况下能够超越标准深度学习算法和基于范数的鲁棒深度学习算法。

May, 2020

深度学习对大规模标签噪声具有强韧性

本研究证明，基于深度神经网络的图像分类模型可以从含有数量远多于准确标签的训练数据中进行有效学习，表现出良好的测试性能提升，这种学习需要增加数据集大小作为代价。

May, 2017

更多数据可能扩大对抗性鲁棒模型和标准模型之间的泛化差距

针对现代机器学习模型易受到对人类不可察觉的攻击的问题，采用对抗培训来学习鲁棒模型的代价是在未被扰动的测试集上存在更高的泛化误差，此研究证明更多的数据可能会增加鲁棒分类器与标准分类器泛化误差的差距并提出了理论结果以判定何时和何种情况下添加更多数据才能缩小这种差距，此现象也出现在线性回归模型中。

Feb, 2020

易训练数据在困难任务中的非常有效性

通过对容易和困难数据进行简单的训练方法、线性分类器头和 QLoRA 的易变难泛化，以及使用不同硬度度量的实验验证，我们得出了在语言模型中易变难泛化意外地很强，表明可扩展的监管问题可能比之前认为的更容易。

Jan, 2024