深度神经网络学习符号交互的动态研究

Jul, 2024

深度神经网络学习符号交互的动态研究

Towards the Dynamics of a DNN Learning Symbolic Interactions

Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu...

TL;DR本研究解决了深度神经网络（DNN）学习交互的动态特性这一问题。提出了一个新的理论框架，揭示了DNN如何在不同复杂性的交互之间逐渐编码，从而解释了其从欠拟合到过拟合的泛化能力变化。实验结果表明，该理论能有效预测多种DNN在不同任务上的实际学习动态。

Abstract

This study proves the two-phase dynamics of a deep neural network (DNN) learning interactions. Despite the long disappointing view of the faithfulness of post-hoc explanation of a DNN, in recent years, a series o

发现论文，激发创造

深度线性神经网络学习非线性动力学的精确解

通过对深度线性神经网络的学习动态进行系统分析，我们发现这些网络表现出类似于非线性神经网络的非线性学习现象，包括长时间的平原，然后快速转换到更低误差的解决方案，以及从贪婪的无监督预训练初始条件下的更快收敛等。同时，我们发现在权重的某些特殊初始条件下，非监督预训练可以找到这些初始条件，同时表现出深度独立的学习时间，而随机高斯初始化则做不到。

Dec, 2013

比较动态：深度神经网络与玻璃系统

本研究利用玻璃系统在统计物理学上所开发的方法对深度神经网络(DNN)的训练动态进行了数值分析，在地址复杂度的损失面貌和网络结构等方面取得了一些独到的发现。

Mar, 2018

深度神经网络的学习动态

研究深度神经网络的学习动态，主要关注于二元分类问题。我们证明了网络学习的各种性质，并且在非线性架构下，分类误差也呈现出sigmoid形状，证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响，并探讨了交叉熵和hinge损失对生成对抗网络训练的差异。最后，我们提出了梯度饥饿现象并进行了研究。

Sep, 2018

发现和解释深度神经网络中的表示瓶颈

本文研究了深度神经网络的特征表示瓶颈，从输入变量在 DNN 中编码的交互复杂性的角度进行探讨，发现 DNN 更可能编码过于简单和过于复杂的交互，并且通常无法学习中等复杂度的交互。该现象被称为特征表示瓶颈，本文从理论上证明了其根本原因，并提出了一种损失函数来促进或惩罚特定复杂度的交互的学习，并分析了不同复杂度交互的表示能力。

Nov, 2021

技术笔记：定义和量化AND-OR交互以忠实和简明地解释DNN

本论文通过重新定义相互作用的定义，提出了基于信仰度和简洁性的相互作用说明的两种类型（AND和OR相互作用），并设计了技术来提高说明的简洁性，同时不影响它们的信仰度。因此，可以用一组符号概念来准确、简洁地解释DNN的推理逻辑。

Apr, 2023

理解和利用神经网络的学习阶段

通过对参数的演化，我们全面分析了深度神经网络的学习动态，发现存在三个阶段：接近恒定的重建损失、下降和上升。我们还通过经验实证建立了数据模型，并对单层神经网络证明了阶段的存在。我们的工作为迁移学习提供了新的最佳实践：通过实验证明预训练的分类器在性能达到最优之前应该停止。

Dec, 2023

从DNN中定义和提取可推广的交互原语

该研究探索了深度神经网络的解释性人工智能，并开发了一种从共享的网络中提取交互信息的方法，以更好地反映不同网络之间的共享知识。

Jan, 2024

深度神经网络学习过拟合特征的起始点解释：交互的两阶段动态

该研究探讨了深度神经网络(DNN)学习交互的动态。研究发现DNN学习交互的过程分为两个阶段，并验证了高阶交互相较于低阶交互有较弱的泛化能力，从而解释了DNN的泛化能力在训练过程中的变化。

May, 2024

完美拟合对表示学习的影响：深度神经网络中的表示训练动态

通过揭示深度神经网络（DNNs）在训练过程中的演变，本文重点关注在过度参数化学习环境下，训练持续进行的情况，探讨了学习表示的演变以及层级之间的相似性和线性分类器探针的相似度等指标，并发现了与相对层级深度、DNN宽度和架构有关的训练动态模式。同时，对Vision Transformer进行了研究，展示了完美拟合阈值在编码器块中表示演变方面的转变。

May, 2024

神经网络中知识的逐层变化

本研究解决了深度神经网络（DNN）逐层提取新知识及遗忘噪声特征的过程，填补了对知识定义的不一致性和层间互动的理解空白。通过首次提取中间层编码的互动，量化并跟踪每一层在前向传播中的新兴和遗忘的互动，揭示了DNN学习行为、泛化能力的变化及特征表示的不稳定性。

Sep, 2024