EMNLPAug, 2019

揭示 BERT 的黑暗秘密

TL;DR本研究基于自注意力机制进行 BERT 模型的定量及定性分析,发现模型的超参数化导致自注意力机制复用率高,不同自注意力机制对不同 NLP 任务影响不同,针对性关闭某些自注意力机制可以提升模型性能。