自注意力中深度和宽度的相互作用
论文研究了 Transformer 的结构配置问题,并且提出了嵌入秩瓶颈的概念,通过实验验证了这种瓶颈的存在并显示了它在 Transformer 结构的深度与宽度之间的相互作用中的影响,同时提出了一种排查 ALBERT 和 T5 在 NLP 模型中冗余的方法。
May, 2021
本篇研究通过探究深度和宽度对模型隐藏表示的影响,发现一个特征块结构,这个结构是相对于训练集大小而言容量较大(更宽 / 更深)的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响,其代表性的块结构对于每个模型来说是独一无二的。最后,我们分析了不同模型体系结构的输出预测,发现即使整体准确率相似,宽而深的模型也表现出不同类别之间鲜明的错误模式和差异。
Oct, 2020
深度神经网络在各种环境中表现出前沿的性能,但在按顺序训练新任务时往往会出现 “灾难性遗忘”。本研究设计了一个框架来分析连续学习理论,并证明网络宽度与遗忘之间存在直接关系。具体而言,我们证明增加网络宽度以减少遗忘产生递减的效果,我们在以前的研究中未曾探索过的宽度范围上通过实验证实了我们理论的预测,清晰地观察到这种递减效果。
Mar, 2024
本文通过实证研究发现在深度自监督学习中保持一定的深度可以提高各种面向内容的任务的准确性,同时保持一定的宽度可以提高多个面向说话人的任务的性能。基于这些观察,我们为 SUPERB 识别出了一个具有更好性能的压缩模型。
Jul, 2022
本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为 “令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收敛现象。
Mar, 2021
本篇论文对注意力机制的实现方法进行了实证研究,发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著,为注意力机制的进一步研究及设计提供了新的思路和方向。
Apr, 2019
本文通过对自我注意模块归纳偏差的理论分析,发现有界 Transformer 网络能够创建稀疏变量,从而用单个注意力头表示输入序列的稀疏函数,样本复杂度仅以对数尺度增长;通过合成实验来支持我们的分析,探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。
Oct, 2021
本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析,提出了相应的模型初始化和训练超参数的宽度缩放建议,最终在实际场景中训练了视觉和语言的 Transformer 模型
Apr, 2023
本研究通过分析注意力层及其所在的变形器模型的表示能力,探讨这些模型相对于其他架构的优势和劣势,并重点关注了它们的内在复杂度参数,例如宽度、深度和嵌入维度。在正面方面,我们提出了一个稀疏平均任务,并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长,而变形器的复杂性仅随着输入规模的对数增长;此外,我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面,我们提出了一个三元组检测任务,其中注意力层的复杂性随输入规模线性增长;考虑到这种情况在实践中似乎很少出现,我们还提出了一些自然变种,可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值,以及稀疏平均作为原型注意任务的作用,甚至在三元组检测的分析中也有用处。
Jun, 2023
本文提出了一种宽架构、混合专家 (MoE) 替代前馈神经网络 (FFN) 的参数高效框架,通过参数共享以压缩深度,并使用独立的 layernorms 来转换各种语义表示,实验结果在多个计算机视觉和自然语言处理基准测试中表现优异,最佳模型能以 0.72 倍的可训练参数超越 Vision Transformer 1.5%、超越 ALBERT 1.8%平均表现和使用分解嵌入参数化的 BERT 0.8%。
Jul, 2021