Explicit Sparse Transformer: 明确稀疏转换器 —— 通过明确选择实现集中注意力

Dec, 2019

Explicit Sparse Transformer: 明确稀疏转换器 —— 通过明确选择实现集中注意力

Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection

Guangxiang Zhao, Junyang Lin, Zhiyuan Zhang, Xuancheng Ren, Qi Su...

TL;DR提出了一种名为显式稀疏 Transformer 的新模型，其通过选择最相关的片段来改进全局上下文的注意力集中度，展示了在自然语言处理和计算机视觉任务方面的优越表现，并实现了与稀疏注意力方法可比或更好的结果，但显著减少了训练和测试时间。

Abstract

self-attention based transformer has demonstrated the state-of-the-art performances in a number of natural language processing tasks.

self-attention transformer natural language processing sparse attention model performance

发现论文，激发创造

稀疏 Transformer 视觉跟踪

通过引入稀疏注意力机制和双头预测器，成功地解决了基于 Transformer 模型的视觉跟踪任务中自注意力机制关注背景信息而影响性能的问题，并在 LaSOT、GOT-10k、TrackingNet 和 UAV123 等数据集中表现出显著的跟踪性能。相比 TransT，我们的方法将训练时间缩短了 75％。

May, 2022

自适应稀疏变压器

介绍了自适应稀疏转换器，使用 α-entmax 代替 softmax，可以适应性地学习头部偏爱的结构，并改善了 softmax 转换器在机器翻译数据集上的可解释性和头部多样性。

Aug, 2019

ERNIE-SPARSE: 基于自注意力正则化的分层高效 Transformer 学习

提出 ERNIE-Sparse 模型，它包含两个不同的部分：分层稀疏 Transformer（Hierarchical Sparse Transformer，HST）和自注意力正则化（Self-Attention Regularization，SAR）方法。实验证明，在长序列建模任务和文本分类任务中，ERNIE-Sparse 显著优于其他基线方法。

Mar, 2022

基于查询导向的稀疏 Transformer 的长文档排名

本文介绍了一种名为 QDS-Transformer 的算法，它在 Transformer 自注意力机制的基础上，设计了稀疏的查询导向注意力机制，以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配，同时还具有稀疏性和计算效率。实验证明，QDS-Transformer 模型在全监督和少样本 TREC 排名基准中具有稳定和强大的优势。

Oct, 2020

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

基于 Transformer 的自适应稀疏和单调注意力自动语音识别

研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别，以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性，并在多项基准测试中取得了良好的效果。

Sep, 2022

神经机器翻译的稀疏和约束注意力

本文提出了一种新颖的方法来解决 NMT 中的 “coverage problem”，通过给源语言单词分配 “fertilities” 来限制每个单词可以接收的注意力，同时提出了一种新的稀疏的注意力变换方式 “sparsemax”，并在三种语言对上进行实证评估。

May, 2018

局部关注和内容选择实现的长篇摘要

本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖，并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验，证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外，与现有算法相比，在没有大规模 GPU 计算机卡的情况下，本研究的方法也可以实现相当或更好的结果。

May, 2021

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021