EMNLPOct, 2020
使用 Transformer 引导自监督学习的注意力机制
Guiding Attention for Self-Supervised Learning with Transformers
Ameet Deshpande, Karthik Narasimhan
TL;DR该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。