Transformer 可以在全连接网络无法实现的情况下证明稀疏令牌选择的学习能力
SparseSpikformer 是一种通过令牌和权重修剪技术实现稀疏性的共设计框架,可以显著减少模型参数 90%并减少 20%的 GFLOPs,同时保持原始模型的准确性。
Nov, 2023
这篇论文首次从理论上分析了低秩和稀疏性在一层 Transformer 中的特性,并通过数量化可训练参数的梯度更新得出了梯度具有低秩性的结论,同时论文还分析了模型剪枝对泛化能力的影响以及对计算效率的改善。
Jun, 2024
本文对 Transformers 和 recurrent models 的归纳偏差进行大量实证研究,发现 Transformers 在形式语言的建模上相对较弱,但其在归纳偏差方面与 recurrent models 存在差异,可解释其在泛化性能方面表现优异。
Nov, 2022
本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物,通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时,我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来,并通过各种真实世界视觉数据集的实验表明,这些网络确实可以学习到设计目标的优化使图片高度压缩表示和稀疏,能够和如 ViT 一般经过深入的工程设计后的变压器网络取得相当的表现。
Jun, 2023
通过使用线性混合器代替自注意层,与标准的非线性前馈层一起能够在几个文本分类任务中模拟语义关系。用标准、非参数特定的傅里叶变化替换 Transformer 编码器中的自注意子层在 GLUE 基准测试上取得了 92-97% 的 BERT 模型的准确性,同时在标准 512 输入长度的 GPU 上训练速度提高了 80%,在 TPU 上提高了 70%。在更长的输入长度上,FNet 模型速度极快,在长序列基准测试中,FNet 模型能够匹配最精确模型的准确性,提供更快的模型训练速度。此外,FNet 的内存占用相对较小,在较小的模型尺寸下运行的性能优于 Transformer 模型。
May, 2021
本研究提出一种稀释注意力机制,以解决 Transformer 网络在输入序列长度较长时的计算成本过高的问题,并证明其能够普遍逼近任何序列到序列的函数,而且具有比稠密模型更低的复杂度,最后通过实验结果验证该机制的有效性在自然语言处理任务中。
Jun, 2020
本文提出了一种名为 Tokenized Graph Transformer(TokenGT)的新颖神经网络,它可以用于大规模图形学习,通过节点和边的独立表示进行转换,并且通过合适的 token 嵌入,TokenGT 可以在理论上至少与由等变线性层组成的不变图网络(2-IGN)一样有潜力进行表现,实践中,TokenGT 在大规模图形数据集(PCQM4Mv2)上的表现不仅优于基于消息传递的图神经网络(GNN)基线,而且与具有复杂图特定归纳偏差的变型 Transformer 相比也具有竞争力。
Jul, 2022
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,其将自注意力操作限制在空间上邻近的一组 Token 上,并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。
Mar, 2023