Mar, 2022
ERNIE-SPARSE: 基于自注意力正则化的分层高效 Transformer 学习
ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention
Yang Liu, Jiaxiang Liu, Li Chen, Yuxiang Lu, Shikun Feng...
TL;DR提出 ERNIE-Sparse 模型,它包含两个不同的部分:分层稀疏 Transformer(Hierarchical Sparse Transformer,HST)和自注意力正则化(Self-Attention Regularization,SAR)方法。实验证明,在长序列建模任务和文本分类任务中,ERNIE-Sparse 显著优于其他基线方法。