Bitformer: 一种基于位运算的高效 Transformer,用于低成本低精度设备上的大数据分析
提出了一种新的 Transformer 模型的压缩方法 EcoFormer,通过核化哈希将查询和键映射为低维二进制码,并在自监督学习的方式下匹配注意力图中提取的相似关系,可以实现 Attention 机制的线性复杂度并在芯片能耗上节省很多资源。
Sep, 2022
Transformers 的计算机视觉任务中,通过使用简化架构和改进的推理性能的 ReduceFormer 模型系列,有效地解决了传统 Transformer 模型中的计算问题,降低了延迟和提高了吞吐量,适用于计算资源和内存带宽有限的边缘设备以及追求高吞吐量的云计算。
Jun, 2024
通过应用稀疏和二元权重变换器在多变量时间序列问题上,我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果,并应用了两种修改以减少注意力机制的计算复杂度,从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量(FLOPs)等多个度量标准上测量了我们的方法的计算节约,并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。
Aug, 2023
本文介绍了一种名为 Brainformer 的复合深度神经网络模型,其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效,比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中,Brainformer 模型与 GLaM 模型相比,细调后 SuperGLUE 得分高出 3%。
May, 2023
本文介绍了两种技术以提高 Transformer 的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。
Jan, 2020
我们介绍了 Boolformer,这是第一个经过训练的 Transformer 架构,能够执行完整的布尔函数符号回归。它能够预测复杂函数的简洁公式,并能够在提供不完整和嘈杂的观测数据时找到近似表达式。我们在广泛的实际二元分类数据集上评估了 Boolformer,展示了它作为解释性机器学习方法的潜力。最后,我们将其应用于基因调控网络动力学建模任务,使用最新的基准测试,展示了 Boolformer 与最先进的遗传算法相竞争,并具有数个量级的加速度。我们的代码和模型公开可用。
Sep, 2023
本文介绍了 Fastformer 模型,这是一种基于加法注意力的高效 Transformer 模型,与现有的 Transformer 模型相比,它可以更有效地建模长文本,并且具有线性复杂度。
Aug, 2021
本文提出了一种名为 Treeformer 的新型 transformer 模型,通过采用基于决策树的层次化导航方法,将 attention 计算的检索成本从线性降低为几乎对数级,同时使用 TF-Attention 和 TC-Attention 两种 attention 层实现了性能优于基准 Transformer 30 倍 FLOPs 的结果。
Aug, 2022
本文中,我们设计了一种新的基于注意力的线性结构,称为 T-former,用于图像修复,实验表明该方法在保持较低的参数数量和计算复杂度的同时,实现了最先进的精度。
May, 2023
Longformer 是一种基于 Transformers 的模型,采用能够线性缩放序列长度的自注意力机制,使得处理数千个记号以上的文档变得容易;与先前的一些工作不同的是,Longformer 同时进行了预训练和下游任务的微调,并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外,Longformer 还引入了 Longformer-Encoder-Decoder(LED)以支持长文档的生成序列对序列任务。
Apr, 2020