本文提出代数拓扑作为数据复杂性量度,并通过实证分析展示了神经网络的拓扑容量在不同数据复杂度下都呈现相变现象,从而将现有理论和完全连接的神经网络架构的选择联系起来。
Feb, 2018
通过系统地变化常用超参数来训练超过 10,000 个卷积网络,我们提出了深度网络推广的第一个大规模研究,并研究了来自理论界和经验研究的 40 多种复杂度衡量标准,探索每种衡量标准和推广之间的因果关系,并通过仔细控制的实验展示了一些衡量标准的惊人失败,以及进一步研究的有希望的衡量标准。
Dec, 2019
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
本文研究探讨了寻找更具有鲁棒性的体系结构对于减少深度学习模型在实际应用中对于输入数据微小扰动导致的错误决策的重要性。在评估鲁棒性方面,我们基于 NAS-Bench-201 进行神经网络架构搜索,对 6466 种不同的网络设计进行评估并引入数据库,发现对神经网络的拓扑结构进行优化可以显著提高其鲁棒性。
Jun, 2023
本文讨论了深度学习中的一项科学挑战,即解释归纳泛化问题,通过关注经验性评估方法,提出了将泛化度量评估纳入分布强健性框架的看法。
Oct, 2020
本文考虑了通过监督学习来学习期权价格或隐含波动率的问题,并发现在所选择的网络体系结构方面使用广义高速公路网络的精度比其它变体高,对于计算隐含波动率,采用变换后的 DGM 架构是最优的。
Jul, 2023
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
通过功能近似,我们证明了迭代幅值修剪网络的错误可以预测,并且遵循对网络结构、任务、修剪等级等参数的不变性;我们表明这个近似适用于大规模数据和体系结构,从而为未来构建大规模网络提供了有用的理论支持。
Jun, 2020
论文旨在通过提出基于结构的一阶优化算法和网络集合与个体网络之间的一种新对应关系,发展人工神经网络的学习权优化和泛化理论基础,进而在具有远远更多参数的网络中探索正则化的作用。
Oct, 2022
通过改进计算机视觉模型的网络设计,特别是针对多尺度计算机视觉任务的新网络设计,这篇研究论文旨在超越现有文献中的基准设计,保证了公平的比较,并公开了代码。
Feb, 2024