Oct, 2022

Breaking BERT:评估和优化稀疏化注意力

TL;DR本研究评估了不同的稀疏模式对 Transformer 模型的性能影响,发现使用至少 78% 稀疏度的注意力机制在后期 Transformer 层中应用时,对性能影响较小,但是应用于整个模型会显著降低性能。通过算法可学习邻近连接的稀疏度,并在精度和稀疏度之间进行了细致的权衡。