神经网络的语义景观范式
通过分析深度线性网络中的非线性动态,我们找到了确切的解决方案,从而解释了语义认知中许多不同现象的普遍性,包括概念的分层差异、语义错觉、项目典型性和类别一致性的出现,以及发展过程中归纳投射模式的变化,以及跨物种的神经表示中语义相似性的保持。
Oct, 2018
通过研究不同规模的模型,我们发现在大型模型中达到更高性能的关键因素是单语义神经元的减少,提出了一种主动抑制单语义性的两阶段方法,并通过理论分析和实验证明了其有效性。该方法的适用性不限于大规模,但对于研究部门来说,将该研究扩展至非常大规模的数据集是吸引人的,但受到资源限制而不可能实现,期待 AI 公司的合作。
Dec, 2023
本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性,其中高维度发挥了关键作用,通过将损失函数的空间看作是一系列高维楔形图的集合,揭示了优化算法收敛过程的内在规律,最终还研究了一些深度网络的集成技术。
Jun, 2019
深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力,这被称为发生现象。本文提出了一个基于技能的框架,其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型,并得到了与培训时间、数据量、模型规模和最佳计算(C)有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较,其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数,能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。
Apr, 2024
研究了 ConceptNet 定义的由 11 种不同语言的七个语义关系组成的语义网络的特性,发现它们普遍具有稀疏、高度聚集和幂律程度分布等基本属性,少数语言的语义网络由于语法规则的影响出现幂律分布中的峰值。此外,根据语义关系类型和语言不同,语义网络中连接的形成受不同原则的指导,利用语义网络中相似性和互补性知识,可以提高 NLP 算法中的缺失链接推断。
Apr, 2023
本文回顾了关于神经网络全局和局部损失函数的广泛研究,重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法,并讨论了实际神经网络的可视化和经验探索,最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。
Jul, 2020
通过采用统计力学的方法,我们研究一个超参数全连接的神经网络分类任务的优化过程,发现该过程与热力学中的温度有类似的波动统计,确定了低误差区域为低维流形,且该维度由决策边界的附近数据点的数量控制,并解释了在高温下主要采样弯曲程度较大的地区的原因。
Apr, 2023