- 过参数化如何影响特征?
超参数化是深度学习成功的关键因素之一,本研究通过比较不同宽度的模型的特征来探讨过参数化网络的特点,发现无论是过参数化还是欠参数化的网络都具有一些独特的特征,而过参数化网络在性能方面优于欠参数化网络,即使许多欠参数化特征被连接。在 CIFAR - 深度神经网络超参数化的局部线性恢复保证
在深度学习理论中,我们引入了 “局部线性恢复”(LLR)的概念,证明了表达能力较弱的深度神经网络(DNN)可从更少数量的样本中恢复,而且对于两层 tanh 神经网络,我们还证明了这一结果的最优情况。我们的研究为进一步研究过参数化情况下 DN - ICML深度超参数低秩学习与调整中的可压缩动力学
通过利用数据的固有低维结构和模型参数的可压缩动力学,我们展示了优化和泛化方面的超参数化的好处,而无需增加计算负担。在深度低秩矩阵补全和微调语言模型的实践中,我们证明了这种方法的有效性,同时保留了超参数化对性能的优势。
- 过参数化非线性回归中的一致预测的贝叶斯推断
通过贝叶斯框架探索超参数化非线性回归的预测特性,并在单神经元模型和广义线性模型中建立了后验缩固,展示了我们的方法在过参数化方案中实现了一致的预测。此外,我们的贝叶斯框架允许对预测进行不确定性估计。通过数值模拟和实际数据应用验证了我们的方法, - 下一标记预测的隐性偏见
利用渐进式下降算法在 NTP 训练中获得最佳性能解决方案,研究了梯度下降方法在 NTP 训练中的偏向性和最优解相关性,并提出了进一步研究的方向,以更好地理解使用 NTP 进行训练的模型的优化、泛化和鲁棒性原则。
- 递归神经网络的梯度下降的收敛性:非渐近分析
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出 - 连接这些点:是模式连接性是贝叶斯神经网络中可行的基于样本的推断的关键吗?
通过揭示权重和函数空间之间的特征关系,我们的研究表明在基于样本的贝叶斯神经网络推理中,成功采样方法是可能的,同时也揭示了超参数化与采样问题困难之间的系统联系。通过广泛实验,我们建立了采样和收敛诊断的实用指南。因此,我们提出了一种贝叶斯深度集 - 典型案例分析中的权重量化对模型学习的影响
本文研究了大规模数据分析模型中使用的量化方法及其超参数选择。通过采用统计物理学中的典型案例分析,特别是副本方法,我们探索了超参数对简单学习模型的量化产生的影响,并得到了三个关键发现:(i)在位数较少和量化宽度较大的情况下会出现不稳定的超参数 - ICLR任务相似性和过度参数化对灾难性遗忘的联合影响 -- 一种分析模型
我们的研究主要关注于在可分析的模型中,任务相似性和过参数化如何联合影响遗忘,针对两个任务的连续线性回归任务,我们得到了遗忘期望的精确解析表达式并揭示了一个微妙的模式,此外,在高度过参数化的模型中,中等的任务相似性导致最多的遗忘,然而,在近插 - 学习神经网络的双峰现象
神经网络的广义化误差存在双下降现象,高度过参数化的模型能够避免过拟合并实现良好的测试性能,与统计学习理论所描述的标准偏差 - 方差权衡相违背。本研究探索了这一现象与神经网络所表示的函数的复杂性和敏感性之间的联系,特别关注随机特征模型的简单教 - 现代机器学习中,更多才是更好:当无限过参数化时是最优的,而过拟合则是必然的
我们的研究通过理论分析和实证结果说明,更大的神经网络模型、更多的数据和更多的计算可以提升随机特征模型的性能。
- ICML多头注意力的优化和泛化
使用多头自注意力机制,经过一定的初始条件和训练,可以优化和推广 Transformer 模型的核心机制,获得收敛和泛化保证。
- 表达丰富的变分量子电路在联邦学习中提供固有的隐私保护
使用具有表达性编码映射和超参数化参量的变分量子电路模型引入了联邦学习,显示了表达性映射对抗梯度反演攻击具有内在隐私保护能力,而超参数化则确保了模型的可训练性。同时,通过数值扩展论证了攻击模型中表达性映射的欠参数化导致丢失地形被大量虚假局部极 - DeepMem:机器学习模型作为存储通道及其(误)应用
机器学习模型的超参数化能够支持广泛性和避免过拟合问题,同时也可以用于恶意目的和有益目的,本文考虑机器学习模型作为存储通道的信息论视角,并提出了一种基于超参数化数量的通道容量的上界,进一步探索黑盒写入和读取原语,以达到优化存储和提高容量的目的 - 使用过度参数化的卷积残差网络在低维流形上进行非参数分类
该论文研究了使用权重衰减训练的 ConvResNeXts 模型的性能, 分析表明权重衰减隐式地强制对这些模块进行稀疏化处理,从而说明过参数化的 ConvResNeXts 相对于传统机器学习模型的优势。
- 深度网络剪枝的几何视角:有多稀疏可以剪枝?
本文研究了深度神经网络的过度参数化问题,提出了一种全局一次性网络剪枝算法,并通过计算高维几何中的正交宽度来确定剪枝比率的相变点,该值等于基于 $l_1$ 正则化损失函数的某个凸体的平方高斯宽度除以参数的原始维度。
- 稍微过参数的 ReLU 网络具有良好的损失景观
研究了两层轻度超参数化 ReLU 神经网络对于平方误差丢失函数的一般有限输入数据集的损失景观,使用 Jacobean 的秩来界定局部和全局极小值集合的维度,并利用随机二进制矩阵的结果证明大多数激活模式对应于没有坏的可微局部极小值的参数区域。
- 逃离平庸:两层网络如何使用 SGD 学习困难的单指标模型
该研究探讨了在初始状态下存在许多平坦方向时,双层神经网络在随机梯度下降下学习单目标函数的样本复杂性,发现过度参数化只能增强收敛,而不能提高在这个问题类中的常数因子,这些发现是基于将随机梯度下降动态降维到更低维度的随机过程。
- 线性神经网络层促进单 / 多指数模型学习
本文探讨了超参数神经网络中大于两层的隐式偏差。通过添加线性层,可以优化神经网络的表示成本,并提高实际子空间的准确匹配度与预测性能。
- 一般回归误差假设下无岭最小二乘估计器的均方误差
本文从均方误差的角度对 ridgeless interpolation least squares estimator 进行分析,证明相对于样本大小引入大量不重要的参数能够有效降低估计器的均方误差,并且利用回归误差的方差 - 协方差矩阵的迹