Sep, 2019

BERT 是如何回答问题的:对 Transformer 表示进行逐层分析

TL;DR我们对 BERT 的隐藏状态进行逐层分析,揭示了这些状态所包含的有价值的信息,包括 QA 任务 fine-tuned 的模型如何转换令牌向量以找到正确的答案。通过应用一组用于揭示每个表示层中存储信息的一般和 QA 特定探测任务,我们的分析显示 BERT 的转换经历了与传统 pipeline 任务相关的阶段,且细微调整对模型的语意能力影响不大,即使在早期层也可以识别出预测错误。