ERNIE-SPARSE: 基于自注意力正则化的分层高效 Transformer 学习

Mar, 2022

ERNIE-SPARSE: 基于自注意力正则化的分层高效 Transformer 学习

ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention

Yang Liu, Jiaxiang Liu, Li Chen, Yuxiang Lu, Shikun Feng...

TL;DR提出 ERNIE-Sparse 模型，它包含两个不同的部分：分层稀疏 Transformer（Hierarchical Sparse Transformer，HST）和自注意力正则化（Self-Attention Regularization，SAR）方法。实验证明，在长序列建模任务和文本分类任务中，ERNIE-Sparse 显著优于其他基线方法。

Abstract

sparse transformer has recently attracted a lot of attention since the ability for reducing the quadratic dependency on the sequence length. We argue that two factors, information bottleneck sensitivity and inconsistency between different attention topologies, could affect the performa

sparse transformer ernie-sparse self-attention regularization long sequence modeling text classification

发现论文，激发创造

Explicit Sparse Transformer: 明确稀疏转换器 —— 通过明确选择实现集中注意力

提出了一种名为显式稀疏 Transformer 的新模型，其通过选择最相关的片段来改进全局上下文的注意力集中度，展示了在自然语言处理和计算机视觉任务方面的优越表现，并实现了与稀疏注意力方法可比或更好的结果，但显著减少了训练和测试时间。

Dec, 2019

基于 Transformer 的自适应稀疏和单调注意力自动语音识别

研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别，以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性，并在多项基准测试中取得了良好的效果。

Sep, 2022

基于查询导向的稀疏 Transformer 的长文档排名

本文介绍了一种名为 QDS-Transformer 的算法，它在 Transformer 自注意力机制的基础上，设计了稀疏的查询导向注意力机制，以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配，同时还具有稀疏性和计算效率。实验证明，QDS-Transformer 模型在全监督和少样本 TREC 排名基准中具有稳定和强大的优势。

Oct, 2020

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

ERNIE-Doc: 一种用于回顾性长文档建模的 Transformer

提出了基于具有回归的 Transformers 的文档级语言预训练模型 ERNIE-Doc，借助回顾性馈送机制和增强的回归机制，提高了其处理长文档数据的能力。实验证明，在英文和中文文档级任务上，ERNIE-Doc 在文本分类和问题回答等任务上表现出比其他模型更优秀的语言理解能力。

Dec, 2020

ERNIE 3.0：大规模知识增强的语言理解与生成预训练

提出了一种统一的框架 ERNIE 3.0，用于预训练大规模知识增强模型，利用自回归网络和自编码网络相结合的方法来让训练好的模型适用于自然语言理解和生成任务，结果表明，该模型在 54 个中文 NLP 任务上优于现有技术，英文版本超越人类表现 + 0.8%。

Jul, 2021

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

稀疏 Transformer 视觉跟踪

通过引入稀疏注意力机制和双头预测器，成功地解决了基于 Transformer 模型的视觉跟踪任务中自注意力机制关注背景信息而影响性能的问题，并在 LaSOT、GOT-10k、TrackingNet 和 UAV123 等数据集中表现出显著的跟踪性能。相比 TransT，我们的方法将训练时间缩短了 75％。

May, 2022

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理

传统修剪方法在大型语言模型中的使用具有挑战性，因为训练过程代价高且计算需求大。我们首次引入隐藏状态特征的信息熵作为修剪度量设计，即 E-Sparse，以提高大型语言模型的 N:M 稀疏性准确性，并通过引入信息熵和几种创新技术来快速优化信息分布和应对 N:M 稀疏性对准确性的影响。E-Sparse 通过 FasterTransformer 实现为 Sparse-GEMM，并在 NVIDIA Ampere GPU 上运行。对 LLaMA 系列和 OPT 模型进行的广泛实验表明，E-Sparse 可以显著加速模型推理（高达 1.53 倍），并实现显著的内存节省（高达 43.52%），在可接受的准确性损失范围内。

Oct, 2023