数据集增长
提出了两种基于神经突触智能和梯度范数的数据估值指标,通过在线聚类和基于考察数据值的分组提出了新的数据选择算法。在线方法使用逐层模型参数更新和每个时期梯度高效地评估数据,可以使用更少的时期和数据子集(例如,19%-59%)加速模型训练,同时在各种数据集中保持等价的水平,还可以扩展到离线 Coreset 构建,只生成原始数据的 18%-30%子集。
Jun, 2023
本论文总结了在数据中心人工智能比赛中的获胜结论,提出了针对小数据集训练的质量增强方法和基于生成对抗网络的数据点生成解决方案,并指出该管道生成的数据集在比基准要小的情况下提高了 5% 的准确度。
Oct, 2021
本研究证明,基于深度神经网络的图像分类模型可以从含有数量远多于准确标签的训练数据中进行有效学习,表现出良好的测试性能提升,这种学习需要增加数据集大小作为代价。
May, 2017
为提高深度学习模型的性能和泛化能力,本论文提出了数据、损失函数和预测等三个方面的技术,以有效地利用小数据集进行训练。通过利用仅包含每类 50 张图像的 ImageNet 数据,我们取得了高准确率,并在 “数据有效计算机视觉挑战” 中排名第四。
Jul, 2020
本文提出了一种算法来检测影响机器学习模型的重要实例,而无需领域知识,该方法利用了随机梯度下降法,并在 MNIST 和 CIFAR10 数据集上进行了实验验证。
Jun, 2019
使用公共数据可以改善差分隐私机器学习中的隐私准确性权衡,本研究通过使用大规模公共数据改进生成对抗网络 (GANs) 中差分隐私图像生成的质量,并提供了一种有效利用公共数据的改进方法。我们方法的假设是公共数据分布的支持包含私人数据的支持;例如,公共数据来自通用的互联网规模的图像源,而私人数据由特定类型的图像组成。详细评估表明,我们的方法相对于使用公共数据的现有方法,在 FID 分数和其他指标上均达到了 SOTA 水平,并能以差分隐私方式生成高质量真实感的图像。
Aug, 2023