- 无限宽度模型的有效性:为什么特征学习不如你想象的那样重要
无限宽度架构,如神经切向核 (NTK) 在过去显示出与有限模型相比较弱的性能。我们证明这并非如此,实际上,我们展示无限宽度的 NTK 模型能够通过从无限特征向量中选择相关子特征来访问更丰富的特征。事实上,我们实验性地表明,即使在关闭特征学习 - 神经网络学习分类任务中的编码方案
神经网络具有生成任务相关特征有意义表示的关键能力,然而 emergent coding scheme 的本质仍不清楚。本文使用贝叶斯框架研究全连接的宽神经网络在学习分类任务时的特征学习机制,并发现网络的内部表示在神经非线性方面具有重要影响, - 快速致富:精确解揭示不平衡初始化是如何促进快速特征学习的
该研究揭示了神经网络中特征学习的机制及其对学习速度、初始值的敏感性,并提供了使用不平衡初始化来增强高效特征学习的理论依据。
- 基于确定性神经主动学习的困惑样本优先策略
神经网络主导的主动学习(NAL)是一种具有成本效益的数据选择技术,利用神经网络选择和训练一小部分样本。本研究在特征学习视角下,对两种常用的 NAL 查询准则:基于不确定性和基于多样性进行了统一解释,并证明这两种准则的成功都在于优先选择包含尚 - 具有多个输出和卷积层的有限宽度贝叶斯深度线性网络中的特征学习
在此研究中,我们对多输出和卷积层的有限宽度结构的函数统计提供了严格的结果,从而更接近完整描述贝叶斯设置中特征学习的过程。我们的结果包括:(i)一个对于输出的联合先验分布的确切且简单的非渐近积分表示,以高斯混合形式给出;(ii)在均方误差损失 - 线性对角网络的加权最小二乘算法的精确渐近性
在这项工作中,我们对一类算法进行了统一的渐近性分析,其中包括了经典的迭代重新加权最小二乘(IRLS)算法、最近提出的用于线性神经网络的 lin-RFM 算法和线性对角神经网络上的交替最小化算法。我们的分析在一个 “批处理” 情境中进行,使用 - 梯度下降如何学习特征 - 正则化双层神经网络的局部分析
通过本地收敛分析,该论文展示了梯度下降通过精心正则化的目标函数在损失降至一定阈值以下后能够捕捉到真实方向,从而证明了特征学习不仅发生在初始梯度步骤,也可能发生在训练结束时。
- 多头 Transformer 动态的无限极限
我们分析了特征学习阶段中 Transformer 模型的训练动力学的各种尺度极限,确定了能够在训练过程中实现无限宽度和深度极限、允许注意层更新的一组参数化;然后利用动力平均场理论(DMFT)中的工具,分析了各种无限极限(无限关键词 / 查询 - 数据燃起:天文成像中的扩散增强方法
天文学和人工智能的交叉领域面临着诸多挑战,本研究提出了一种名为 FLARE 的两阶段增强框架,通过特征学习和增强分辨率的方法,在图像分类中取得了显著性能提升。
- 神经网络高斯过程的威尔逊重整化
通过在高斯过程回归的背景下,系统地积掉不可学习的高斯过程核的模式,实现了威尔逊 RG 在实践上的方法,其中数据扮演能量尺度的角色,研究这样的流可以改善我们对深度神经网络中特征学习的理解,识别出这些模型中的潜在普适类。
- 非负矩阵分解在降维中的应用:一项综述
本文综述了非负矩阵分解(NMF)在降维中的应用,重点关注其在特征提取和特征选择方面。我们分类了降维方法,对 NMF 的不同方法进行了全面总结。此外,我们讨论了 NMF 在降维中的最新研究趋势和潜在未来发展方向,旨在突出需要进一步探索和发展的 - 自适应引导学习用于伪装对象检测
本文提出了自适应引导学习网络(AGLNet),它是一种统一的可学习模型,用于在 CNN 模型中探索和调整不同的附加线索,以引导准确的伪装特征学习,并在不同的附加线索下实现了显著的性能改进。
- 懒人(NTK)和富人(μP)的领域:温和教程
现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导,解释了以下事实:为了有效地训练宽网络,在选择学习率和初始权重大小 - EncodeNet:基于熵驱动的广义转换自编码器的深度神经网络精度提升框架
通过引入 Converting Autoencoder 和 intraclass clustering 方法,本研究设计了 EncodeNet 框架,提高了 DNN 模型的准确性而不增加模型大小,并在 CIFAR-10 和 CIFAR-10 - 神经网络中的半空间特征学习
神经网络能够学习复杂的线性特征,通过深层线性门控网络(DLGN)以不同于传统线性网络和 ReLU 网络的方式来实现特征的非线性学习,并通过学习输入空间中包含目标函数平滑区域的半空间来实现特征学习。
- 无需训练的 NAS 遇上 Vision Transformer:神经切线核视角
本论文探讨了神经切线核(NTK)在没有训练的情况下搜索视觉变换器。通过与先前观察到的基于 NTK 的指标在初始化时能有效预测 CNN 的性能相比较,我们通过实证表明它们在 ViT 搜索空间中的无效性。我们假设 ViT 中的基本特征学习偏好导 - 复杂性的重要性:在伪相关存在的情况下的特征学习动态
我们提出了一个理论框架和相关的合成数据集,以布尔函数分析为基础,允许对虚假特征相对复杂性和与标签相关性的相对强度进行细粒度控制,以研究虚假相关下特征学习的动态。我们的设置揭示了几个有趣的现象:(1)更强的虚假相关或更简单的虚假特征会减缓核心 - 从噪声数据中为深度学习优先选择信息丰富的特征和示例
我们提出了一个系统性框架,通过优化有信息的特征和示例来增强开发过程的每个阶段,以解决真实世界应用中的嘈杂特征和示例。
- 一次梯度下降后两层网络中特征学习的渐近性
通过连接非线性尖峰矩阵模型和高斯普遍性的最新进展,我们确切描述了两层神经网络在高维极限中的泛化误差,其中样本数 (n)、宽度 (p) 和输入维度 (d) 以相同的速度增长,同时阐明了数据适应对网络在梯度方向高效学习非线性函数的重要性,而在初 - 线性递归特征机器可证明恢复低秩矩阵
神经网络在绕过维度灾难的同时能够准确预测的基础是对特征学习的隐式维度缩减过程的理解,本文提出了递归特征机(RFM)作为一种能够显式地执行特征学习的算法,并且在稀疏线性回归等问题中展示了其维度缩减能力和优于标准算法的性能。