- ICML通过近似和共享反向传播减少微调内存开销
本文主要关注细调预训练大型模型的内存开销问题,从激活函数和层归一化的角度来减轻内存开销,并通过引入 Approx-BP 理论,提出了 GELU 和 SiLU 激活函数的内存高效替代方案,以及 Memory-Sharing Backpropa - ICML关于层归一化的非线性性
研究论文通过理论和实验分析,探讨了层归一化在深度学习中的非线性和表示能力,并展示了利用层归一化的神经网络结构的有效性以及扩大其非线性的方法。
- 解析神经网络可塑性丧失的原因
在神经网络的设计、初始化和优化的过程中,损失可塑性问题是一个关键因素。通过组合使用层归一化和权重衰减技术,可以在各种非平稳学习任务中有效地维持网络的可塑性,从而实现高度稳健的学习算法。
- 旅行之词:Transformer 的几何解释
通过引入新颖的几何视角,本文揭示了 Transformer 操作的内部机制,主要贡献在于说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探 - 规范化就足够了:理解极端标签偏移下的层归一化联邦学习
通过对层归一化与联邦学习中的标签转移问题的深入研究,我们揭示了层归一化与标签转移问题之间的深刻联系,并验证了特征归一化作为层归一化中的关键机制在改善联邦学习的收敛性方面的重要作用。
- Pre-RMSNorm 与 Pre-CRMSNorm 变压器:等效且高效的 Pre-LN 变压器
本文提出了一种方法通过去除 Pre-LN Transformers 的冗余均值信息,将 LayerNorm 转化为 RMSNorm 以取得更高效率,进一步提出了一种基于无损压缩的 CRMSNorm Transformer, 实验证明,这种方 - ACL层归一化对零样本神经机器翻译的影响探究
本文探讨了层规范化 (LayerNorm) 对零 - shot 翻译 (ZST) 的影响。通过在 OPUS、IWSLT 和 Europarl 数据集上的 54 个 ZST 方向的实验,我们证明了在残差连接后 (PostNorm) 的原始 T - 仅调整规范层的表达能力
本研究探讨了针对正则化层进行精调的可行性,并发现仅针对归一化层的调整能够重构任何目标网络,并验证了这一结论在过度参数化情况下仍然成立。
- 预训练语言模型层归一化参数有效调整
本文提出了一种仅利用 0.03% 参数的 LN-tuning 方法,通过调整 Layer Normalization 模块的增益和偏置项,实现对 PLMs 的参数高效调整,同时研究了将 LN-tuning 与其他先前方法相结合的统一框架,在 - 批归一化在自然语言处理中 Transformer 失败的原因
通过量化训练与推理之间的不一致性,证明了 BN 在 NLP 中表现较差的主要原因,并提出了一种正则化方法 RBN,可以显著改善 BN 在 Transformer 模型上的性能。
- MM加速和稳定 Transformer 的统一规范化
提出一种名为统一归一化(UN)的新型网络层归一化方法,通过采用适合的波动整理策略校准激活和梯度统计数据,以避免过多迭代波动和极端异常值的问题,并应用自适应离群值筛选策略以避免训练崩溃。通过在语言和视觉任务上的广泛实验,验证了 UN 作为 L - 论 Transformers 中的层标准化与残差连接
研究表明,在使用深层 Transformers 训练时,Post-LN 有时会出现不稳定的情况,而 Pre-LN 的表现则相对更好,但在浅层 Transformers 中,Post-LN 的表现一直优于 Pre-LN。本文发现,Post-L - ACL克服自注意力机制的理论限制
该研究研究了 Transformer 网络在接受依赖于单一输入符号的语言中的限制,并通过使用 PARITY 和 FIRST 语言作为例子,证明了三种克服该限制的方法。
- ICLR从图的视角重新审视 BERT 中的过度平滑问题
本文针对 Transformer-based models 中存在的过度平滑问题,从图的角度进行分析,发现标准化层在过度平滑问题中发挥了关键作用,提出了一种基于层次融合策略的方法以缓解该问题。
- EMNLP将残差和归一化层引入掩码语言模型分析中
通过全面分析 Transformer 架构(多头注意力、残差连接和层归一化)来研究其性能表现,发现中间表示的交互通过注意力执行的作用比先前假定的要小,并提供了新的直观解释。
- COLING使用层归一化重新思考 Transformer 和 ResNet 中的跳跃连接
研究了跳跃连接技术中规模因子对其效率的影响,提出了递归应用带有层归一化的跳跃连接技术可以显著提高性能并在各种任务包括机器翻译和图像分类技术中具有很好的普适性。
- Transformer 架构中的层标准化
本文证明了学习率预热阶段对于 Post-LN Transformer 是必要的,并提出了一种新的 Pre-LN Transformer 结构,该结构无需预热阶段,同时具有与基线相当的性能,大大减少了训练时间和超参数调整。
- ACL机器翻译的深度 Transformer 模型学习
本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法,在机器翻译任务中,构建比 Transformer-Big 模型更深层的 Transformer 模型,并在 WMT'16 英德、NIST OpenMT'12 中英 - 实例级元归一化
该研究提出一种称为 “ILM~Norm” 的规范化机制,它通过特征前馈和梯度反向传播路径学习预测规范化参数,适用于多种网络架构和任务,能够提高模型性能。
- 基于领域层归一化的无监督风格图像描述生成
提出了一种可控的时尚图像描述生成模型,通过引入一种新的层归一化层设计来实现学习生成与图像内容更相关的时尚图像描述,并能够通过插入风格特定参数来生成各种不同风格的描述。