Nov, 2020

BERT 中信息流的解释的影响模式

TL;DR介绍了影响模式来理解注意力机制,发现 BERT 模型中信息流主要通过跳跃连接而非注意力头,而且模式的一致性是 BERT 性能的一个指标,比以前的注意力和层次方法更好。