Transformer 可以在全连接网络无法实现的情况下证明稀疏令牌选择的学习能力

Jun, 2024

Transformer 可以在全连接网络无法实现的情况下证明稀疏令牌选择的学习能力

Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot

Zixuan Wang, Stanley Wei, Daniel Hsu, Jason D. Lee

TL;DR基于变形器架构的稀疏令牌选择任务分析，训练过程中表现出强大的某些任务的泛化能力。

Abstract

The transformer architecture has prevailed in various deep learning settings due to its exceptional capabilities to select and compose structural information. Motivated by these capabilities, Sanford et al. proposed the

transformer architecture structural information sparse token selection task fully-connected networks algorithmic separation

发现论文，激发创造

稀疏 Spikformer：脉冲变换器的令牌和权重剪枝的协同设计框架

SparseSpikformer 是一种通过令牌和权重修剪技术实现稀疏性的共设计框架，可以显著减少模型参数 90％并减少 20％的 GFLOPs，同时保持原始模型的准确性。

Nov, 2023

基于变形器的学习可证明具有低秩和稀疏性：一层分析

这篇论文首次从理论上分析了低秩和稀疏性在一层 Transformer 中的特性，并通过数量化可训练参数的梯度更新得出了梯度具有低秩性的结论，同时论文还分析了模型剪枝对泛化能力的影响以及对计算效率的改善。

Jun, 2024

Transformer 模型中的简洁性偏好及其学习稀疏布尔函数能力

本文对 Transformers 和 recurrent models 的归纳偏差进行大量实证研究，发现 Transformers 在形式语言的建模上相对较弱，但其在归纳偏差方面与 recurrent models 存在差异，可解释其在泛化性能方面表现优异。

Nov, 2022

通过稀疏率降低白盒 Transformer 模型复杂度

本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物，通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时，我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来，并通过各种真实世界视觉数据集的实验表明，这些网络确实可以学习到设计目标的优化使图片高度压缩表示和稀疏，能够和如 ViT 一般经过深入的工程设计后的变压器网络取得相当的表现。

Jun, 2023

自适应语义标记选择用于 AI 原生目标导向通信

我们提出了一种新颖的 AI 本地目标导向通信设计，利用变换器神经网络在带宽和计算的动态推理约束下。

Apr, 2024

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

FNet: 用 Fourier 变换混合 token

通过使用线性混合器代替自注意层，与标准的非线性前馈层一起能够在几个文本分类任务中模拟语义关系。用标准、非参数特定的傅里叶变化替换 Transformer 编码器中的自注意子层在 GLUE 基准测试上取得了 92-97% 的 BERT 模型的准确性，同时在标准 512 输入长度的 GPU 上训练速度提高了 80%，在 TPU 上提高了 70%。在更长的输入长度上，FNet 模型速度极快，在长序列基准测试中，FNet 模型能够匹配最精确模型的准确性，提供更快的模型训练速度。此外，FNet 的内存占用相对较小，在较小的模型尺寸下运行的性能优于 Transformer 模型。

May, 2021

$O (n)$ 连接已足够表达力：稀疏 Transformer 的通用逼近性

本研究提出一种稀释注意力机制，以解决 Transformer 网络在输入序列长度较长时的计算成本过高的问题，并证明其能够普遍逼近任何序列到序列的函数，而且具有比稠密模型更低的复杂度，最后通过实验结果验证该机制的有效性在自然语言处理任务中。

Jun, 2020

无纯元素的 Transformer 是强大的图学习器

本文提出了一种名为 Tokenized Graph Transformer（TokenGT）的新颖神经网络，它可以用于大规模图形学习，通过节点和边的独立表示进行转换，并且通过合适的 token 嵌入，TokenGT 可以在理论上至少与由等变线性层组成的不变图网络（2-IGN）一样有潜力进行表现，实践中，TokenGT 在大规模图形数据集（PCQM4Mv2）上的表现不仅优于基于消息传递的图神经网络（GNN）基线，而且与具有复杂图特定归纳偏差的变型 Transformer 相比也具有竞争力。

Jul, 2022

本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，其将自注意力操作限制在空间上邻近的一组 Token 上，并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题，可以在保证准确率下显著减少计算量，达到更优的精度－计算复杂度平衡点，进一步结合 Token 稀疏机制，该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。

Mar, 2023