可训练表示池化技术稀疏化 Transformer 模型

ACLSep, 2020

可训练表示池化技术稀疏化 Transformer 模型

Sparsifying Transformer Models with Trainable Representation Pooling

Michał Pietruszka, Łukasz Borchmann, Łukasz Garncarek

TL;DR我们提出了一种新方法，通过学习在训练过程中选择最具信息量的令牌表示方法来稀疏 Transformer 模型中的注意力，从而关注输入的特定部分。由于一个强大的可训练的 top-k 操作符，将二次时间和内存复杂度降低到亚线性水平。我们在一个具有挑战性的长文档摘要任务上的实验表明，即使是我们的简单基线表现也与当前的 SOTA 相当，通过可训练的池化技术，我们可以保持其最高质量，在训练过程中快 1.8 倍，推理时快 4.5 倍，并且在解码器中计算效率高达 13 倍。

Abstract

We propose a novel method to sparsify attention in the transformer model by learning to select the most-informative token representations during the training process, thus focusing on the task-specific parts of a

transformer model attention sparsification token representations long document summarization trainable pooling

发现论文，激发创造

视觉 Transformer 中的 Token 池化

该研究提出了一种称作 Token Pooling 的新型令牌下采样方法，旨在提高对视觉变换的计算速度，并通过对 softmax 注意力机制的研究，实现了更好的计算速度与精度之间的平衡。

Oct, 2021

改进的 TokenPose 与稀疏性

在这篇论文中，我们引入了稀疏性来改善人体姿势估计，在 MPII 数据集上的实验证明了我们的模型具有更高的准确性和新的最先进结果，并且对其他基于 Transformer 的模型提供了参考。

Nov, 2023

自适应上下文池化的高效表征学习

该研究提出了 ContextPool，一种自适应的注意力机制，用于增强在 transformer 模型中的自注意力机制，实现了更强的性能表现（在语言和图像基准测试中），达到了最新的研究结论，并适用于卷积神经网络进行高效的特征学习。

Jul, 2022

高效稀疏注意力需要自适应令牌释放

通过自适应释放缓存资源和重构必要的键值状态，以实现生成性能的竞争力和高达 221.8% 的吞吐量改善。

Jul, 2024

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

局部关注和内容选择实现的长篇摘要

本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖，并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验，证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外，与现有算法相比，在没有大规模 GPU 计算机卡的情况下，本研究的方法也可以实现相当或更好的结果。

May, 2021

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

PoNet: 长序列中高效的令牌混合池化网络

本文提出了一种新的 Pooling Network (PoNet)，它使用线性复杂度的 token mixing 处理长序列，通过多粒度池化和池化融合来捕获不同级别的上下文信息，并结合 tokens 进行交互来提高模型性能。在长范围竞技基准测试中，PoNet 显著优于 Transformer，同时实现与最快模型 FNet 相当的准确性，在 GPU 上度量所有序列长度时仅比最快模型慢一点。同时文章也进行了系统的研究，证明了 PoNet 设计的多粒度池化和池化融合的加强长序列的 token 混合以及设计的预训练任务可用于学习可转移的上下文化语言表示的有效性。

Oct, 2021

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Jun, 2023

SPION: 基于卷积漫延的 Transformer 分层稀疏训练

我们提出了一种新颖的 Transformer 稀疏化方案，通过整合卷积滤波器和泛洪填充方法，高效捕捉自注意操作中的逐层稀疏模式，从而在 Transformer 的训练过程中降低计算复杂度和内存占用，实现了超过现有稀疏 Transformer 模型的 3.08 倍加速，并具有更好的评估质量。

Sep, 2023