当表示对齐时:在表示学习动态中的普适性
本研究通过理论和算法对同一结构但训练自不同初始化的两个深度神经网络学习出的神经元激活子空间匹配进行研究,提出了最大匹配和简单匹配的核心概念,并发现了在子空间匹配方面,从不同初始化训练的网络中学习出的卷积层表示并不像普遍预期的那样相似。
Oct, 2018
通过引入门控深度线性网络框架,研究网络结构对学习动态产生的影响并理解它与任务之间的关系,表明结构化网络中的学习动态可以被概念化为具有向共享表示的神经竞赛,我们的分析为神经网络架构与学习之间的关系提出了一般性假设,并提供了理解更复杂架构设计以及模块化和组合在解决现实问题中起的作用的数学方法。
Jul, 2022
确定人类和人工智能之间的相似性和差异是机器学习和认知神经科学的重要目标。通过借鉴认知科学的最新发展,我们提出了一个通用框架,可在人类和深度神经网络 (DNN) 中产生可比较的表示。将此框架应用于人类和自然图像的 DNN 模型,揭示了一个低维度的 DNN 嵌入,包括视觉和语义维度。与人类不同,DNN 显示出视觉特征明显优于语义特征的优势,表明表示图像的策略存在分歧。尽管在硅中的实验显示 DNN 维度具有似乎一致的可解释性,但人类和 DNN 表示之间的直接比较表明它们在处理图像时存在重大差异。通过使表示直接可比较,我们的结果揭示了表示对齐的重要挑战,为提高它们的可比性提供了一种方法。
Jun, 2024
本文旨在研究用结构性表示学习的方法,具体分为解缠结表示与面向对象表示两个方向,以实现从非结构化数据中提取潜在结构信息的目的,同时还探讨了该方法对预训练表示和下游任务泛化能力的提升以及其对于大规模数据的高效表征学习的应用。
Apr, 2023
通过研究具有一个隐藏层的网络的学习动态,我们发现网络的激活函数对于表示几何的影响强于预期:Tanh 网络倾向于学习反映目标输出结构的表示,而 ReLU 网络保留了更多关于原始输入结构的信息。这种差异在广泛的参数化任务中一直存在,我们在这些任务中调节任务输入的几何与任务标签的对齐程度。我们通过分析权重空间中的学习动态,说明了 Tanh 和 ReLU 非线性网络之间的差异是由于 ReLU 的非对称渐近行为导致的,这导致特征神经元专门针对输入空间的不同区域。相比之下,Tanh 网络中的特征神经元倾向于继承任务标签结构。因此,当目标输出是低维时,Tanh 网络生成的神经表示比采用 ReLU 非线性的表示更具解耦性。我们的发现揭示了神经网络中输入输出几何、非线性和学习表示之间的相互作用。
Jan, 2024
通过研究数千个基于神经科学的任务训练的网络,我们发现基于表示几何的相似度测量在不同网络结构中可能高度敏感,并且无论架构如何,神经动力学的计算骨架通常表现出普遍性。
Jul, 2019
本文指出了中间神经表现添加了深度学习网络的灵活性并且在原始输入上具有优势,并阐述了与浅学习者,如卷积内核的神经表现的关系。通过学习低秩的多项式,中间神经表现可以实现比原始输入更少的样本复杂度,并且在神经可切内核的情况下,本文还提出了神经表现不利的限制。
Jun, 2020
通过研究深度学习模型的架构和数据内在结构之间的关系,本文探讨了深度学习的理论基础,并通过实验和物理启发式玩具模型的结合,揭示了它们的内在工作原理,旨在填补理论与实践之间的鸿沟。
Oct, 2023
本篇研究通过探究深度和宽度对模型隐藏表示的影响,发现一个特征块结构,这个结构是相对于训练集大小而言容量较大(更宽 / 更深)的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响,其代表性的块结构对于每个模型来说是独一无二的。最后,我们分析了不同模型体系结构的输出预测,发现即使整体准确率相似,宽而深的模型也表现出不同类别之间鲜明的错误模式和差异。
Oct, 2020