- 残差连接和归一化能够在图神经网络中可证明地防止过度平滑
本文研究了图神经网络中残差连接和标准化层的作用,并提出了一种名为 GraphNormv2 的归一化层,以解决过度平滑问题。
- 加强的编码 - 解码网络架构对图像语义分割中的信息损失进行减少
本研究提出了一种创新的编码器 - 解码器网络结构,利用残差连接增强了传统 SegNet 架构在图像语义分割任务中的准确性。通过多重残差连接策略有效地保留了不同图像尺度上的细节,从而最小化了下采样过程中的信息丢失。此外,为了增强网络训练的收敛 - 训练 Transformer 时打破对称性
通过研究我们发现,Transformer 架构在没有位置编码和因果注意机制之一的情况下,对于输入令牌 $n+1$ 的预测对于输入令牌 $1, 2, ..., n-1$ 的排列是不变的,而通常情况下,两种机制都被采用并破坏了对输入令牌的对称性 - 再次让深度网络变得浅显
通过研究深度神经网络中的残差连接,提出了一种平行浅层架构的替代方案,通过在 Taylor 级数表达式中截断高阶项,发现广而浅的网络架构在性能上与传统的深层架构相当,这一发现有望简化网络架构、提高优化效率并加速训练过程。
- 残差循环网络中的褪色记忆作为归纳偏差
通过引入弱耦合残差循环神经网络(WCRNNs),本研究调查了残差连接对性能、网络动力学和记忆属性的影响,并展示了特定形式的残差连接如何提高实用表达能力。
- MM使用 ReLU 激活函数的图神经网络初始化和架构选择原则
本文提出了三个初始化和架构选择原则的验证,在有限宽度图神经网络(GNN)和 ReLU 激活下,通过证明得出使用 He-initialization,并在初始时使用残差聚合运算符和残差连接的实践可以显著提高深度 ReLU GNN 在各种任务上 - 通过层内链接重新思考深度分离
在研究网络深度与性能相关的深度分离理论时,注意到该理论是基于前馈神经网络建立的。本文通过研究添加跨层连接的含快捷路径的神经网络,发现其修改了深度分离理论,使得一个增加连接的浅层神经网络不需要与先前的那么宽,就能表达一些深层神经网络构建的难题 - ResiDual:带有双重残差连接的 Transformer 模型
本研究提出了一种新的 Transformer 结构 ResiDual,它融合了 Post-Layer-Normalization 和 Pre-Layer-Normalization 的优点,同时避免了它们的缺点,有效地解决了 Transfo - 通用深度图神经网络:从路径分解的角度重新思考图神经网络中的残差连接以防止过度平滑
本论文从路径分解的角度研究 GNNs 中残差连接的前向和后向传播行为,发现由残差连接路径的二项式分布递归聚合的中位数长度路径控制输出表示,导致 GNNs 深度加深时的过度平滑。基于这些发现,作者提出了一种带有冷启动自适应残差连接和前馈模块的 - CVPR具有任务特定适配器的跨域少样本学习
该论文提出了一种直接在少量支持集上学习任务特定权重的方法,通过使用残差连接和矩阵形式的参数适配器,能够显著提高最先进的 Meta-Dataset 基准模型的性能。
- CVPR重新思考和提高图像风格转移的鲁棒性
研究表明,通过预训练的 VGG 网络提取的特征之间的相关性能够很好的捕捉图像的视觉风格;然而,这种特征传递的鲁棒性在应用于更先进的轻量级网络(如 ResNet)中有所下降。本文通过大量实验发现,残差连接对于 ResNet 来说,生成的特征熵 - 深度确定性不确定性:一个简单的基线
本研究提出了一种概念简单的基线模型,即通过残差连接和谱归一化构建特征空间后,利用高斯判别分析对 softmax 神经网络的预测原型进行后处理,从而达到准确预测深度神经网络中的不确定性的目的,这种 Deep Deterministic Unc - 残差卷积演化关注机制
本文提出一种基于演化注意力的新型通用机制,通过残差连接实现前一层的注意力指导后一层,并采用卷积层来建模对注意力图的演化过程,在多个任务上显著提高了性能。
- EMNLPTransformer 前馈层即键值内存
通过实验我们发现,transformer 模型中的前馈层作为键值内存操作,其键与训练示例中的文本模式相关,并且每个值在输出词汇表上引入一个分布。同时利用残差连接使得前馈层的输出分布集中于出现在每个模式后的可能出现的标记。
- ECCVNAS-DIP: 用神经架构搜索学习深度图像先验
本文提出使用神经架构搜索算法来寻找升级版的卷积神经网络,以用作结构化图像先验,从而进行各种反向图像恢复任务,通过大量实验结果验证了此方法的有效性。
- 关于 Transformer 的计算能力及其对序列建模的启示
这篇论文研究了变形金刚网络的计算能力与图灵完备性,得出了只有通过位置掩蔽而没有位置编码的变形金刚同样具有图灵完备性,而某些残差连接是必需的结论,并通过机器翻译和合成任务的实验说明了结果的实际应用。
- ReZero 是您所需的:在大深度下快速收敛
通过使用零初始化参数对残差连接进行门控,满足初始动态等性,可以在深度学习中进行更快的收敛和更好的测试表现,并且我们可以轻松地训练 120 层变压器。
- CVPR具有残差连接和有限数据的神经网络剪枝
本研究提出了 CURL 方法,通过 KL-divergence 标准对残差连接内外的通道进行修剪,并使用知识蒸馏和标签细化方法解决了有限数据和标签噪声带来的问题,在 ImageNet 数据集上显著优于之前的最先进方法,同时在小数据集上修剪时 - 对抗训练图形卷积网络实现缺失数据插值
本论文提出了一种更通用的缺失数据填充 (MDI) 框架,使用图神经网络 (GNNs) 建立自编码器与边表征向量,通过多个损失函数提升性能。本方法在大规模实验中表现优于现有 MDI 方法,在大量缺失值时尤为明显。
- ResNet 为什么有效?残差可以泛化
本文研究残差连接对神经网络假设空间覆盖数以及泛化能力的影响,证明了哪怕是固定了权重矩阵和非线性函数的总数,残差连接不会增加神经网络的假设复杂性,并基于假设空间覆盖数得到了 ResNet 等采用残差连接的深度神经网络的多类泛化界。根据此泛化界