Apr, 2021

BERT 的可解释性幻觉

TL;DR通过对 BERT 模型中的单个神经元激活的分析,我们揭示了一种 “解释能力幻觉”,揭示了 BERT 的嵌入空间的几何特性和文本语料库表示只代表英语句子的狭窄切片的事实,我们提供了模型学习概念的分类,讨论了解释研究的方法论含义,特别是在多个数据集上测试假设的重要性。