硬件感知的 Transformer 模型用于高效自然语言处理

ACLMay, 2020

硬件感知的 Transformer 模型用于高效自然语言处理

HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

Hanrui Wang, Zhanghao Wu, Zhijian Liu, Han Cai, Ligeng Zhu...

TL;DR通过神经架构搜索，设计了硬件感知的 Transformer 来保证在资源受限的硬件平台上具有低延迟推断的能力，从而在机器翻译任务中显著提高速度和模型效率。

Abstract

transformers are ubiquitous in Natural Language Processing (NLP) tasks, but they are difficult to be deployed on hardware due to the intensive computation. To enable low-latency inference on resource-constrained hardware platforms, we propose to design Hardware-Aware →

transformers hardware-aware transformers neural architecture search machine translation efficient models

发现论文，激发创造

基于分层注意力机制的高效长文档分类探索

本研究开发并发布了使用分段编码器，并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型，在多个长文档下游分类任务中，我们的最佳 HAT 模型在使用 10-20％ GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中，发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。

Oct, 2022

HAT：用于图像恢复的混合注意力变换器

Transformer-based methods have limitations in utilizing input information, so a Hybrid Attention Transformer (HAT) is proposed to improve restoration tasks by combining channel attention and window-based self-attention schemes.

Sep, 2023

具有强制注意力的 Transformer 编码器所接受的逻辑语言

我们研究了可以被 Transformer 编码器识别的形式语言，重点关注了两种自注意机制：UHAT（Unique Hard Attention Transformers）和 AHAT（Average Hard Attention Transformers）。我们展示了 UHAT 编码器可以识别第一阶逻辑中可定义的所有语言，而 AHAT 编码器可以识别加上计数项的逻辑中的所有语言。

Oct, 2023

利用计算注意力预测人类注意力

本研究提出了人类注意力变压器（HAT），它是一种单一模型，预测两种形式的注意力控制，并通过使用一种新颖的基于转换器的架构和一种简化的凹面视网膜，实现了类似于人类动态视觉工作记忆的时空意识，同时避免了离散化固定目光。HAT 在计算注意力方面设定了新方向，并在各种注意力需求场景中更好地预测人类行为，具有广泛的适用性。

Mar, 2023

使用变换器将两个流编码器统一，用于跨模态检索

本研究通过使用两种 Transformer 编码器架构来统一图像和文本之间的差异，提出了一种基于层次对齐 Transformer 的跨模态检索框架，通过多层次的对齐方案，对图像和文本进行了更好的交互和对齐，实验证明该框架优于其他 SOTA 基线，并在两个基准数据集上实现了显著的提升。

Aug, 2023

图像超分辨率变换器中激活更多像素

为了更好的利用 Transformer 的潜力以进行图片重构，在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外，还引入了重叠交叉注意力模块并采用相同任务的预训练策略，拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。

May, 2022

嵌入式异构关注变换器用于跨语言图像字幕生成

我们提出了一种嵌入的异构关注转换器（EHAT），用于建立跨领域的推理路径，以进行跨语言图像字幕生成，并集成到变压器中。EHAT 由掩蔽的异构交叉关注（MHCA）、异构关注推理网络（HARN）和异构协同关注（HCA）组成，在编码器中通过特殊的异构关注实现跨领域集成，并使单个模型生成两种语言的字幕。我们在 MSCOCO 数据集上进行了测试，生成英文和中文，我们的实验证明，我们的方法甚至超过了先进的单语方法。

Jul, 2023

轻量级变形金刚在移动设备上的人体活动识别

本文介绍了人体活动识别用于移动设备的轻量模型 HART，通过 IMUs 数据并使用 Transformer architecture 实现，相比于传统模型在减少资源消耗的同时具有更好的识别效果。

Sep, 2022

关于神经架构搜索的延迟预测器

通过硬件感知的神经架构搜索，预训练和迁移学习方法来改进神经网络的部署效率，并提出了综合性的延迟预测模型，能够有效地提高硬件延迟预测的准确性。

Mar, 2024

在低功耗 MCU 上优化微型 Transformer 的部署

本研究提出了一种在商业微控制器上对 Transformer 模型进行端到端部署的优化框架，通过优化库和新的推理调度方案，在多个 MCU 平台上实现了更低的延迟和能量消耗。

Apr, 2024