Mar, 2022

ERNIE-SPARSE: 基于自注意力正则化的分层高效 Transformer 学习

TL;DR提出 ERNIE-Sparse 模型,它包含两个不同的部分:分层稀疏 Transformer(Hierarchical Sparse Transformer,HST)和自注意力正则化(Self-Attention Regularization,SAR)方法。实验证明,在长序列建模任务和文本分类任务中,ERNIE-Sparse 显著优于其他基线方法。