Jul, 2020

大鸟:面向更长序列的 Transformer

TL;DR本文介绍了基于 Transformers 模型 (BERT) 的缺点,提出了一种新模型 BigBird,该模型采用稀疏注意机制以线性方式减少了模型中由全面关注机制导致的二次依赖性 (主要是内存),能够处理比以前长 8 倍长度的序列。因其能够处理更长的上下文,BigBird 在各种 NLP 任务上都实现了大幅度的性能提升。