ProFormer：基于设备的局部敏感哈希投影变形器

ACLApr, 2020

ProFormer：基于设备的局部敏感哈希投影变形器

ProFormer: Towards On-Device LSH Projection Based Transformers

Chinnadhurai Sankar, Sujith Ravi, Zornitsa Kozareva

TL;DRProFormer 是一种基于投影的变压器架构，使用 LSH 投影层动态生成字表示，提高了效率和空间利用率，使用本地投影注意层进一步减少计算量，相较于 BERT 模型在设备上的表现更快更小。

Abstract

At the heart of text based neural models lay word representations, which are powerful but occupy a lot of memory making it challenging to deploy to devices with memory constraints such as mobile phones, watches and IoT. To surmount these challenges, we introduce proformer -- a projecti

proformer projection based transformer architecture lsh projection layer memory footprint reduction local projection attention

发现论文，激发创造

DevFormer: 上下文感知设备部署的对称 Transformer

本文介绍了一种基于 Transformer 的 DevFormer 架构，应用于硬件设计的优化问题中，其通过引入相对位置嵌入和操作置换对称性等强归纳偏差以有效地捕捉硬件上下文，以便使用有限的离线数据实现高效的设计优化，并在去耦合电容器放置问题上表现出优越的性能，同时通过减少组件数量超过 30％，在模拟和实际硬件中为其成为最先进的方法，并进一步展示了在其他离线环境下基于组合优化任务上的有希望的结果。

May, 2022

ProjectionNet: 使用神经投影学习高效的设备端深度神经网络

引入一种新的紧凑型神经网络结构，该结构使用联合优化框架进行训练，包括一个全训练神经网络和一个利用随机投影进行输入或中间表示转换的简单的 “投影” 网络。使用全网络来指导投影网络的训练。经过训练的小型网络可以用于低内存和计算成本的推理，并且在视觉识别和文本分类任务中保持良好的准确性。

Aug, 2017

HashFormers：面向独立于词汇表的预训练 Transformer

本论文提出了一种新的基于 Hash 技术的预训练模型 HashFormers，该模型可以在不使用 embedding matrices 的情况下支持无限词汇量，具有内存效率更高的优点，并在多个文本分类任务中达到了可比较的预测性能。

Oct, 2022

EdgeFormer: 一种高效参数的边缘 Transformer 用于设备上 Seq2seq 生成

EdgeFormer 是一种面向严格计算和内存限制下的设备本地序列生成的小型 Transformer，应用了两个新颖的成本效益参数化原则，扩展了共享层的网络，并通过大量实验达到了竞争优势。提出了 EdgeLM，这是第一个可供公开使用的在设备上预训练的序列到序列模型，可在实践中促进设备本地序列生成并取得良好结果。

Feb, 2022

TopFormer：移动语义分割的 Token 金字塔 Transformer

本研究提出了一种名为 TopFormer 的移动友好的架构，该架构以不同尺度的 Token 作为输入，产生具有尺度感知的语义特征，并将这些特征注入到相应的 Token 中以增强表示能力，该方法在多个语义分割数据集上明显优于 CNN 和 ViT 网络，并在 ARM 移动设备上以较低的延迟实现了比 MobileNetV3 更高的平均交并比精度，同时，TopFormer 的微型版本可以在 ARM 移动设备上实现实时推断。

Apr, 2022

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

PartialFormer：建模部分而非整体

本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构，利用多个较小的前馈神经网络来减少参数和计算量，同时保持重要的隐藏维度，并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法，对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。

Oct, 2023

RealFormer: 喜欢残差注意力的 Transformer

提出了一种名为 RealFormer 的技术，可以创建残差注意力层的 Transformer 网络，并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练，而且还可以导致具有更少注意力的模型，并提供了预训练检查点。

Dec, 2020

TinyFormer：小型设备上高效的 Transformer 设计与部署

本文提出了 TinyFormer，这是一个专门设计用于在微控制器单元上开发和部署资源高效的 transformers 的框架，通过 SuperNAS、SparseNAS 和 SparseEngine 的组合，实现了在 MCUs 上高效部署 sparse models 以及稀疏推理。评估结果表明，TinyFormer 能够以 96.1% 的准确率开发有效的 transformers，并在稀疏推理上相对于 CMSIS-NN 库实现了高达 12.2 倍的加速。TinyFormer 将强大的 transformers 引入了 TinyML 场景，极大地扩展了深度学习应用领域。

Nov, 2023

FlatFormer: 压缩窗口注意力的高效点云 Transformer

FlatFormer 是一种 3D 点云变压器网络，通过交换计算负荷和提取局部特征以实现节省计算时间的效果，在边缘 GPU 上实现了实时性能，并在大规模基准测试上达到与或甚至更好的准确性。

Jan, 2023