一个模型胜过几万个例子
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
本文介绍了一种新的信号处理和机器学习交叉领域的混合技术 —— 基于模型的深度学习系统。这种新技术结合了传统的数学模型与深度学习的优势,可以通过限定的数据量学习数据,同时保留先前领域知识,以期获得更高效的性能。本文提出了一种新的系统分类方法,并提供了具体的指南和来自最近文献的信号处理案例,以帮助未来基于模型的深度学习设计与研究。
Dec, 2020
本文通过实验证明,相比于之前研究中通常考虑模型大小因素对性能的影响,训练数据集的大小对模型性能的影响同样显著,实验结果发现,训练更小的数据子集可以带来更可靠的模型选择决策同时降低计算成本,并能估算出常见数据集在现代神经网络结构下的最小描述长度,为采用奥卡姆剃刀原则进行负责的模型选择提供了可能性。
Sep, 2020
本文运用深度学习中的卷积神经网络构建了一种 Two-Round 训练方法,定位和排除不利于提高泛化准确性的训练样本,从而提高了基于图像分类和降噪的高级和低级计算机视觉任务的处理性能。
Sep, 2018
本文研究了卷积神经网络和循环神经网络的样本复杂度,发现其样本复杂度随内在维度线性增长,但远小于全连接神经网络。研究方法包括本地经验分析和新的技术引理,希望能激发进一步理解卷积神经网络和循环神经网络的发展。
May, 2018
该论文提出了一种利用知识蒸馏的方法来训练具有有限训练数据的神经网络的技术,该方法引入了一些新的 pseudo training examples,通过这些伪样本更好地优化了模型参数。实验结果表明,与传统的基线和知识蒸馏方法相比,该方法表现出更好的性能。
Feb, 2018
神经网络对数据的拟合能力的研究发现,标准优化算法找到的最小值只能适应参数比样本数量少很多的训练集,卷积网络比多层感知机和视觉注意力变换模型更有效,随机梯度下降在拟合训练集方面比全批量梯度下降更好,对于正确和错误标记样本的拟合能力差异可以预测泛化性能,ReLU 激活函数能找到更多的数据拟合最小值尽管旨在避免深层神经网络中的梯度消失和梯度爆炸。
Jun, 2024
本研究探索寻找一种数量化方法,以估算合理的探测数据集大小,旨在构建一个系统性的诊断神经自然语言处理 (NLP) 模型探测数据集的框架。通过几个案例研究,我们验证了我们的估算具有足够的统计功效。
Feb, 2022