一个模型胜过几万个例子

Mar, 2023

A model is worth tens of thousands of examples

Thomas Dagès, Laurent D. Cohen, Alfred M. Bruckstein

TL;DR本文通过对精确定义的数学模型生成的数据进行实证研究，在一维高斯信号去卷积和估计随机灰度圆形图像中圆的半径和位置等简单例子上，通过训练各种网络，发现与传统的基于数学模型的方法相比，无论是从头开始训练还是采用迁移学习或微调，神经网络需要数万个示例。

Abstract

Traditional signal processing methods relying on mathematical data generation models have been cast aside in favour of deep neural networks, which require vast amounts of data. Since the theoretical sample complexity

deep neural networks sample complexity mathematical models training data traditional methods

发现论文，激发创造

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

基于模型的深度学习

本文介绍了一种新的信号处理和机器学习交叉领域的混合技术 —— 基于模型的深度学习系统。这种新技术结合了传统的数学模型与深度学习的优势，可以通过限定的数据量学习数据，同时保留先前领域知识，以期获得更高效的性能。本文提出了一种新的系统分类方法，并提供了具体的指南和来自最近文献的信号处理案例，以帮助未来基于模型的深度学习设计与研究。

Dec, 2020

小数据，大决策：小数据情境下的模型选择

本文通过实验证明，相比于之前研究中通常考虑模型大小因素对性能的影响，训练数据集的大小对模型性能的影响同样显著，实验结果发现，训练更小的数据子集可以带来更可靠的模型选择决策同时降低计算成本，并能估算出常见数据集在现代神经网络结构下的最小描述长度，为采用奥卡姆剃刀原则进行负责的模型选择提供了可能性。

Sep, 2020

基于统计模型的主动学习

本文回顾了如何使用最优数据选择技术来优化一些类型的机器学习算法，包括前馈神经网络、高斯混合模型和局部加权回归，并探讨了此方法如何降低训练数据量，提高模型性能。

Mar, 1996

数据丢弃：优化卷积神经网络的训练数据

本文运用深度学习中的卷积神经网络构建了一种 Two-Round 训练方法，定位和排除不利于提高泛化准确性的训练样本，从而提高了基于图像分类和降噪的高级和低级计算机视觉任务的处理性能。

Sep, 2018

估计卷积或循环神经网络所需的样本数量是多少？

本文研究了卷积神经网络和循环神经网络的样本复杂度，发现其样本复杂度随内在维度线性增长，但远小于全连接神经网络。研究方法包括本地经验分析和新的技术引理，希望能激发进一步理解卷积神经网络和循环神经网络的发展。

May, 2018

从网络化样本中学习

针对机器学习算法默认独立采样的局限性，在网络化数据样本学习中，使用了有效的样本加权方案，提高了错误边界，从而使丢弃过多共享信息的方法不再是唯一选择。

May, 2014

利用伪示例优化从头开始的小样本神经网络学习

该论文提出了一种利用知识蒸馏的方法来训练具有有限训练数据的神经网络的技术，该方法引入了一些新的 pseudo training examples，通过这些伪样本更好地优化了模型参数。实验结果表明，与传统的基线和知识蒸馏方法相比，该方法表现出更好的性能。

Feb, 2018

神经网络的实际灵活性如何？

神经网络对数据的拟合能力的研究发现，标准优化算法找到的最小值只能适应参数比样本数量少很多的训练集，卷积网络比多层感知机和视觉注意力变换模型更有效，随机梯度下降在拟合训练集方面比全批量梯度下降更好，对于正确和错误标记样本的拟合能力差异可以预测泛化性能，ReLU 激活函数能找到更多的数据拟合最小值尽管旨在避免深层神经网络中的梯度消失和梯度爆炸。

Jun, 2024

关于探测的数据需求

本研究探索寻找一种数量化方法，以估算合理的探测数据集大小，旨在构建一个系统性的诊断神经自然语言处理 (NLP) 模型探测数据集的框架。通过几个案例研究，我们验证了我们的估算具有足够的统计功效。

Feb, 2022