自注意力中深度和宽度的相互作用

Jun, 2020

自注意力中深度和宽度的相互作用

The Depth-to-Width Interplay in Self-Attention

Yoav Levine, Noam Wies, Or Sharir, Hofit Bata, Amnon Shashua

TL;DR该研究通过理论预测和系统实验，发现了自注意力网络中网络深度和宽度之间的深度有效性和深度低效性之间的宽度依赖性转变，并提供了在给定尺寸的自我注意网络中深度和宽度的最佳分配的明确量化建议。

Abstract

self-attention architectures, which are rapidly pushing the frontier in natural language processing, demonstrate a surprising depth-inefficient behavior: previous works indicate that increasing the internal representation (→

self-attention network depth network width language models depth-to-width trade-off

发现论文，激发创造

哪种 transformer 架构适合我的数据？自注意力中的词汇瓶颈

论文研究了 Transformer 的结构配置问题，并且提出了嵌入秩瓶颈的概念，通过实验验证了这种瓶颈的存在并显示了它在 Transformer 结构的深度与宽度之间的相互作用中的影响，同时提出了一种排查 ALBERT 和 T5 在 NLP 模型中冗余的方法。

May, 2021

广而深的神经网络是否学习相同的内容？揭示不同宽度和深度下神经网络表示的变化

本篇研究通过探究深度和宽度对模型隐藏表示的影响，发现一个特征块结构，这个结构是相对于训练集大小而言容量较大（更宽 / 更深）的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响，其代表性的块结构对于每个模型来说是独一无二的。最后，我们分析了不同模型体系结构的输出预测，发现即使整体准确率相似，宽而深的模型也表现出不同类别之间鲜明的错误模式和差异。

Oct, 2020

关于连续学习中宽度递减收益的研究

深度神经网络在各种环境中表现出前沿的性能，但在按顺序训练新任务时往往会出现 “灾难性遗忘”。本研究设计了一个框架来分析连续学习理论，并证明网络宽度与遗忘之间存在直接关系。具体而言，我们证明增加网络宽度以减少遗忘产生递减的效果，我们在以前的研究中未曾探索过的宽度范围上通过实验证实了我们理论的预测，清晰地观察到这种递减效果。

Mar, 2024

宽与深：自监督语音模型任务不可知知识蒸馏的学生网络架构分析

本文通过实证研究发现在深度自监督学习中保持一定的深度可以提高各种面向内容的任务的准确性，同时保持一定的宽度可以提高多个面向说话人的任务的性能。基于这些观察，我们为 SUPERB 识别出了一个具有更好性能的压缩模型。

Jul, 2022

注意力不是唯一的解决方案：仅仅使用注意力机制会随着深度呈双倍指数级别的降低

本研究提出了一种新的方法来理解自我注意网络：我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加，通过这种分解，我们证明了自我注意具有强烈的归纳偏差，具体表现为 “令牌均匀性”；实验证明，不同变体的标准转换器体系结构存在收敛现象。

Mar, 2021

深度网络中空间注意机制的实证研究

本篇论文对注意力机制的实现方法进行了实证研究，发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著，为注意力机制的进一步研究及设计提供了新的思路和方向。

Apr, 2019

自注意机制中的感性偏见和变量创建

本文通过对自我注意模块归纳偏差的理论分析，发现有界 Transformer 网络能够创建稀疏变量，从而用单个注意力头表示输入序列的稀疏函数，样本复杂度仅以对数尺度增长；通过合成实验来支持我们的分析，探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。

Oct, 2021

初始状态下的 Transformer 有效理论

本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析，提出了相应的模型初始化和训练超参数的宽度缩放建议，最终在实际场景中训练了视觉和语言的 Transformer 模型

Apr, 2023

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

拓宽广度而非纵深

本文提出了一种宽架构、混合专家 (MoE) 替代前馈神经网络 (FFN) 的参数高效框架，通过参数共享以压缩深度，并使用独立的 layernorms 来转换各种语义表示，实验结果在多个计算机视觉和自然语言处理基准测试中表现优异，最佳模型能以 0.72 倍的可训练参数超越 Vision Transformer 1.5％、超越 ALBERT 1.8％平均表现和使用分解嵌入参数化的 BERT 0.8％。

Jul, 2021