层并行深度神经网络训练的多层初始化

Dec, 2019

层并行深度神经网络训练的多层初始化

Multilevel Initialization for Layer-Parallel Deep Neural Network Training

Eric C. Cyr, Stefanie Günther, Jacob B. Schroder

TL;DR本论文研究了多级初始化策略，以及基于时间有限制微分方程与网络离散化的深九层前馈神经网络训练方法，结果表明这种方法有效降低了网络训练的时间和初始参数随机性敏感度，并提供了一种正则化效应。

Abstract

This paper investigates multilevel initialization strategies for training very deep neural networks with a layer-parallel multigrid solver

multilevel initialization deep neural networks layer-parallel multigrid solver optimal control regularization

发现论文，激发创造

基于多层卷积神经网络的参数化偏微分方程求解

该论文提出了一种将多层求解器和基于神经网络的深度学习方法相结合的新方法，用于解决高维参数的偏微分方程数值解问题，并在理论和实验方面都得到了验证。

Apr, 2023

深度残差神经网络的分层并行训练

该论文提出了一种基于多格迭代和并行计算的新型深度神经网络训练算法，和传统的序列前向、后向传播不同，该方法使神经网络的训练过程具备了层间的并行性，并取得了与传统方法相当的训练性能。

Dec, 2018

探索卷积神经网络并行化中的隐藏维度

本文提出了一种层级并行的方法来训练深度卷积神经网络，在这种方法中，每层神经网络都可以应用不同的并行策略以优化训练，通过解决图搜索问题来协同优化每个层的并行化方式。实验结果表明，与现有的并行化方法相比，采用该方法可以提高训练吞吐量，降低通信成本，实现更好的多 GPU 可扩展性，并保持原始网络的准确性。

Feb, 2018

通过非线性多重网格实现深度残差神经网络的 GPU 并行层间训练

利用多重网格完全逼近存储算法来解决深度残差神经网络的训练，并在 GPU 上实现神经网络分层的并行化训练和并发计算核执行，这项工作显示出与传统的分层模型并行技术相比具有 10.2 倍的速度提升。

Jul, 2020

神经多网格架构

我们提出了一种简便的无矩阵神经网络结构用于多重网格方法。该结构简单到可以在不到五十行的代码中实现，但包含许多不同的多重网格求解器。我们认为，固定的神经网络没有密集层不能实现高效的迭代方法。因此，标准的训练协议不能生成竞争优势的求解器。为了克服这个困难，我们使用参数共享和层序列化。所得到的网络可以在数以千计未知元的线性问题上进行训练，并在百万未知元的问题上保持其效率。从数值线性代数网络的训练角度来看，它对应于找到几何多重网格方法的最佳平滑器。我们在几个二阶椭圆方程上演示了我们的方法。对于测试的线性系统，与基本线性多重网格方法的 Jacobi 平滑器相比，我们得到的误差传播矩阵的谱半径较小，是其 2 到 5 倍。

Feb, 2024

基于多重网格增强的深度学习方法求解亥姆霍兹方程：紧致隐层优化可扩展性

本研究提出一种基于深度学习的迭代方法，用于解决高波数下的离散异质 Helmholtz 方程。该方法结合了经典的迭代多重网格求解器和卷积神经网络（CNN），通过预处理得到一个学习的神经求解器，它比标准的多重网格求解器更快、更可扩展。

Jun, 2023

跨尺度学习 - 卷积神经网络的多尺度方法

本文将深度卷积神经网络的前向传播解释为一种时变的非线性微分方程，并将其训练过程看作微分方程参数的控制过程，提出了两种新的多尺度方法以缩放 CNN，第一种方法通过 CNN 参数的伸缩，连接低分辨率和高分辨率数据，实现使用低分辨率图像训练的 CNN 对高分辨率图像进行分类，并加速学习过程，第二种方法通过连接浅层和深层网络，逐渐增加 CNN 的深度并复用参数进行初始化。

Mar, 2017

基于层次深度学习的适应时间步长的多尺度模拟方案

使用深度神经网络模拟多尺度问题的新方法，通过利用神经网络时间步进器的分层学习，自适应时间步长以近似不同时间尺度上的动力学系统流动图，与固定步长神经网络求解器相比，该方法在较少的计算时间内实现了业界领先的性能。

Nov, 2023

神经网络的多速率训练

本文提出了一种多速率神经网络训练方法，将神经网络参数划分为 “快速” 和 “慢速” 部分，在不同的时间尺度上进行训练，从而获得传输学习任务的显著计算加速。我们通过在视觉和 NLP 应用中 fine-tune 深度神经网络，证明了我们可以在几乎一半的时间内完成调整，而不影响所得模型的泛化性能。同时，我们分析了多速率方案的收敛性质，并与普通随机梯度下降算法进行比较。本文的贡献是揭示了使用多速率技术进行神经网络训练的潜力，并为未来的工作提供了几个起点。

Jun, 2021

GradInit：学习为稳定和高效的训练初始化神经网络

本文提出了一种基于 SGD 或 Adam 的预设超参数使得每个网络层的范数调整到最小损失值下的简单启发式算法 GradInit，旨在加速卷积结构和 Transformer 等神经网络模型的收敛和测试效果，而且还能提高模型训练的稳定性。

Feb, 2021