硬件感知的 Transformer 模型用于高效自然语言处理
本研究开发并发布了使用分段编码器,并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型,在多个长文档下游分类任务中,我们的最佳 HAT 模型在使用 10-20% GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中,发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。
Oct, 2022
Transformer-based methods have limitations in utilizing input information, so a Hybrid Attention Transformer (HAT) is proposed to improve restoration tasks by combining channel attention and window-based self-attention schemes.
Sep, 2023
我们研究了可以被 Transformer 编码器识别的形式语言,重点关注了两种自注意机制:UHAT(Unique Hard Attention Transformers)和 AHAT(Average Hard Attention Transformers)。我们展示了 UHAT 编码器可以识别第一阶逻辑中可定义的所有语言,而 AHAT 编码器可以识别加上计数项的逻辑中的所有语言。
Oct, 2023
本研究提出了人类注意力变压器(HAT),它是一种单一模型,预测两种形式的注意力控制,并通过使用一种新颖的基于转换器的架构和一种简化的凹面视网膜,实现了类似于人类动态视觉工作记忆的时空意识,同时避免了离散化固定目光。HAT 在计算注意力方面设定了新方向,并在各种注意力需求场景中更好地预测人类行为,具有广泛的适用性。
Mar, 2023
本研究通过使用两种 Transformer 编码器架构来统一图像和文本之间的差异,提出了一种基于层次对齐 Transformer 的跨模态检索框架,通过多层次的对齐方案,对图像和文本进行了更好的交互和对齐,实验证明该框架优于其他 SOTA 基线,并在两个基准数据集上实现了显著的提升。
Aug, 2023
为了更好的利用 Transformer 的潜力以进行图片重构,在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外,还引入了重叠交叉注意力模块并采用相同任务的预训练策略,拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。
May, 2022
我们提出了一种嵌入的异构关注转换器(EHAT),用于建立跨领域的推理路径,以进行跨语言图像字幕生成,并集成到变压器中。EHAT 由掩蔽的异构交叉关注(MHCA)、异构关注推理网络(HARN)和异构协同关注(HCA)组成,在编码器中通过特殊的异构关注实现跨领域集成,并使单个模型生成两种语言的字幕。我们在 MSCOCO 数据集上进行了测试,生成英文和中文,我们的实验证明,我们的方法甚至超过了先进的单语方法。
Jul, 2023
本文介绍了人体活动识别用于移动设备的轻量模型 HART,通过 IMUs 数据并使用 Transformer architecture 实现,相比于传统模型在减少资源消耗的同时具有更好的识别效果。
Sep, 2022
本研究提出了一种在商业微控制器上对 Transformer 模型进行端到端部署的优化框架,通过优化库和新的推理调度方案,在多个 MCU 平台上实现了更低的延迟和能量消耗。
Apr, 2024