从示例难度的角度看深度学习
本文对深度神经网络在计算机视觉领域中的重要应用指标进行全面分析,发现能耗与批次大小和架构无关,准确度和推断时间在双曲线关系中,能源约束是最大可实现准确度和模型复杂度的上限,操作次数是推断时间的可靠估计。
May, 2016
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
通过合成实验,研究深度学习算法从图像中推断简单的视觉概念,如对称性,作者设计了“啊哈挑战”以促进对Gestalt风格机器智能的研究。实验表明,相比于深度卷积神经网络,人类能够很快推断出语义概念,但需要更少的示例才能做到这一点。
Sep, 2017
研究了深度学习方法面临的可解释性困境,提出了一种叫做“深度视觉解释”的框架,通过可视化技术来识别和暴露深度学习模型性能行为的假设,以提高模型的可解释性和可调试性,并展示了初步的可解释性应用实验结果。
Nov, 2017
研究神经网络在单分类任务训练中的学习动态,发现在缺乏明显分布偏移的数据情况下,存在相关遗忘现象,某些样例更容易被遗忘,而基于遗忘动态可以从训练数据集中省略部分例子却仍能保持最佳泛化性能。
Dec, 2018
本文研究在深度学习中“好的解释很难变化”的原则,指出在梯度平均时往往偏向记忆化和拼凑的解决方案而忽视了不变性,在此基础上提出了一种基于逻辑AND的简单算法并在多个真实任务上进行测试。最后使用一组合成数据集和常见正则化方法进行比较。
Sep, 2020
本篇研究通过探究深度和宽度对模型隐藏表示的影响,发现一个特征块结构,这个结构是相对于训练集大小而言容量较大(更宽/更深)的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响,其代表性的块结构对于每个模型来说是独一无二的。最后,我们分析了不同模型体系结构的输出预测,发现即使整体准确率相似,宽而深的模型也表现出不同类别之间鲜明的错误模式和差异。
Oct, 2020
本文介绍了一种利用Gradient Normed (GraNd)和Error L2-Norm (EL2N)这两个简单的得分标准来识别深度学习中最重要的数据训练样本,并进行数据修剪以提高模型效果的方法,同时研究了数据分布对模型损失面的影响及模型中比较稳定的数据表示子空间等训练动态。
Jul, 2021
通过信息论分析深度学习及神经网络,研究在训练过程中神经网络获取的信息,提出了限制权值中标签噪声信息的学习算法,并提出了样本信息度量概念,探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为,导出了非平凡的泛化表现界限,并通过知识蒸馏研究,证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制,有益于更深层次地理解此领域的相关知识。
Jun, 2023