神经网络之间的共享表示几何
本研究通过理论和算法对同一结构但训练自不同初始化的两个深度神经网络学习出的神经元激活子空间匹配进行研究,提出了最大匹配和简单匹配的核心概念,并发现了在子空间匹配方面,从不同初始化训练的网络中学习出的卷积层表示并不像普遍预期的那样相似。
Oct, 2018
本文研究了神经网络所谓的收敛学习现象,使用多种技术对神经网络进行了实验,发现了一些神经网络的未知属性,包括神经网络中某些特征通常会被成功学习,而其他特征则没有被可靠地学习,单元学习低维子空间,而这些子空间是多个网络共有的,但学习的基向量不一致,表示代码表现出局部代码和略微分布式代码的混合特征。
Nov, 2015
为了理解生物和人工神经网络的操作,研究者们需要一个标准化的工具集来量化其结构等因素对神经表征的影响,这篇论文提出了一族量化表征不同神经网络之间相似性的度量空间,利用这个框架使得神经网络表征可以整合进任意的机器学习方法中,然后利用大规模生物和深度学习数据集来验证这些方法,最终找出了神经表征之间与结构和性能之间的关系。
Oct, 2021
本文主要研究利用神经网络将数据流形的几何结构嵌入到潜在表征中,提出了根据潜在表示中样本与预设锚点之间的相对关系来实现所需不变性的方法,并在不同数据集、不同架构、不同任务下进行了验证。
Sep, 2022
作者们通过投影加权规范相关分析法(projection weighted CCA)研究神经网络的表征学习。研究发现,广泛的神经网络更容易获得相似的表征,与学习速率相关的神经网络收敛到具有不同表征的不同聚类中,RNN 随着时间的推移呈自底向上的模式聚合,而其隐藏状态在序列的不同时间间隔内变化较大。
Jun, 2018
在复杂的大规模架构中,深度神经网络的表征学习动态可以用编解码映射为任意平滑函数的有效理论来描述,该理论能够概括多种不同激活函数和架构的深度网络的表征学习动态,并展现类似于 “丰富” 和 “懒惰” 区域的现象。
Feb, 2024
本研究调查神经网络表示与人类认知表示之间对齐的因素,发现模型规模和架构对齐性没有实质性影响,而训练数据集和目标函数对齐性有更大的影响。研究发现,神经网络表示的线性转换有助于提高与人类相似性判断的一致性,但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。
Nov, 2022
通过研究具有一个隐藏层的网络的学习动态,我们发现网络的激活函数对于表示几何的影响强于预期:Tanh 网络倾向于学习反映目标输出结构的表示,而 ReLU 网络保留了更多关于原始输入结构的信息。这种差异在广泛的参数化任务中一直存在,我们在这些任务中调节任务输入的几何与任务标签的对齐程度。我们通过分析权重空间中的学习动态,说明了 Tanh 和 ReLU 非线性网络之间的差异是由于 ReLU 的非对称渐近行为导致的,这导致特征神经元专门针对输入空间的不同区域。相比之下,Tanh 网络中的特征神经元倾向于继承任务标签结构。因此,当目标输出是低维时,Tanh 网络生成的神经表示比采用 ReLU 非线性的表示更具解耦性。我们的发现揭示了神经网络中输入输出几何、非线性和学习表示之间的相互作用。
Jan, 2024
通过研究神经网络所学到的表示是否具有特权和趋同基础,本研究旨在探究个别神经元所表示的特征方向的重要性。结果表明,与线性网络不同,神经表示的任意旋转无法被逆转,证明其不具备完全的旋转不变性。同时,通过比较具有相同参数但具有不同随机初始化的网络的基础,我们发现:(1)即使在 WideResNets 等宽网络中,神经网络也无法收敛到唯一的基础;(2)当网络的少数前几层被冻结时,基础之间的相关性显著增加。此外,我们对线性模态连通性进行了分析,这是衡量基础相关性的一种方式。我们的研究发现,虽然线性模态连通性随网络宽度的增加而改善,但这种改善并不是基础相关性增加所导致的。
Jul, 2023