拓宽广度而非纵深

Jul, 2021

Go Wider Instead of Deeper

Fuzhao Xue, Ziji Shi, Futao Wei, Yuxuan Lou, Yong Liu...

TL;DR本文提出了一种宽架构、混合专家 (MoE) 替代前馈神经网络 (FFN) 的参数高效框架，通过参数共享以压缩深度，并使用独立的 layernorms 来转换各种语义表示，实验结果在多个计算机视觉和自然语言处理基准测试中表现优异，最佳模型能以 0.72 倍的可训练参数超越 Vision Transformer 1.5％、超越 ALBERT 1.8％平均表现和使用分解嵌入参数化的 BERT 0.8％。

Abstract

More transformer blocks with residual connections have recently achieved impressive results on various tasks. To achieve better performance with fewer trainable parameters, recent methods are proposed to go shallower by parameter sharing or model compressing along with the depth. Howev

transformer blocks parameter-efficient framework wide architecture mixture-of-experts computer vision and natural language processing benchmarks

发现论文，激发创造

深度与宽度：Transformer 配置的重新审视

本文通过理论分析和实验评估，重新设计了深度和宽度更浅的 transformer 配置，其中使用 masked 自动编码器训练模型，使模型在 ImageNet 上获得了 87.1％的 top-1 准确性，并在语言任务上优于默认配置的 BERT 达 1.1 个百分点。

May, 2022

多路径变换器更好：神经机器翻译的案例研究

本文研究了通过参数效率的多路径结构，如何影响变压器 (Transformer) 模型，并通过 12 个 WMT 机器翻译任务的广泛实验表明，使用相同数量的参数，较浅的多路径模型可以实现类似甚至更好的性能，揭示了在训练更好的大型 Transformer 时，应该注意多路径结构和模型深度和宽度之间的平衡。

May, 2023

宽 - 窄：高效训练深瘦网络

本研究提出了一种基于模型压缩和神经平均场分析的新型深度学习网络优化方法，并通过大量实验证明其优于传统的反向传播方法，可使经过我们的优化方法训练后的 ResNet50 在性能上超越 ResNet101，而 BERT Base 则可以与 BERT Large 相媲美。

Jul, 2020

宽残差网络

通过对 ResNet 模块架构的详细实验研究，本文提出了一种新的网络架构 —— 宽残差网络 (WRNs)，通过降低深度、增加宽度优化 ResNet 网络，证明其在准确度和效率上优于传统的浅而深层的残差网络模型，实现了在 CIFAR, SVHN, COCO 以及 ImageNet 等数据集上的准确度和效率的新突破。

May, 2016

Switch Transformers: 使用简单高效的稀疏性扩展至万亿级参数模型

通过 Switch Transformer 和降低精度格式，本文展示了如何简化 MoE 路由算法，降低信息交流和计算成本，以及解决训练不稳定问题，并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大，以 trillion 参数为例，实现了超过 4 倍的速度提升。

Jan, 2021

通过共享稀疏门控专家实现参数高效的共轭词器，用于端到端语音识别

本文研究并提出了一种参数效率更高、适用于语音识别的 conformer 变种，采用了稀疏门控 Mixture-of-experts (MoE) 来扩展其容量并实现共享参数，同时使用知识蒸馏进一步提高性能。实验结果表明，该模型相较于全参数编码器，仅用 1/3 的参数即能达到竞争优势。

Sep, 2022

在固定的内存预算下进行深度集成：一种宽网络或多个较窄的网络？

该研究考虑在固定内存预算设置下，在训练单个宽网络或训练一组细网络之间，性能哪种更有效。研究发现，对于足够大的预算，采用内存分割，即训练一组较薄的网络，通常比训练单个宽网络更为有效。该发现被称为 “内存分割优势”，适用于各种数据集和模型架构。

May, 2020

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

残差网络中的深度超参数转移：动态和尺度限制

使用深度学习调参中的参数化方法，研究残差网络的超参数如何在不同宽度和深度的网络中传递，并证明实验和理论结果的一致性。

Sep, 2023

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019