Nov, 2019

BERT 中的 Attention 头是否跟踪句法依赖关系?

TL;DR本研究探讨预训练变形金刚语言模型中的注意头在多大程度上隐含捕获了句法依赖关系,并使用两种方法提取每层 / 头 attention 权重中的隐含依赖关系,比较它们与基准 UD 树的差异。结果表明,这些模型有一些跟踪特定依赖类型的专业注意头,但没有表现出比浅显的基准模型更好的整体解析能力。同时,注意权重直接分析不能揭示 BERT-Style 模型已知的语法知识。