Apr, 2020

BERT Fine-tuning 中嵌入向量发生了什么?

TL;DR研究表明,微调 BERT 模型会显著影响其顶部层的表示,尤其是依赖解析涉及模型的大部分,而 SQuAD 和 MNLI 涉及的则较浅。此外,在域外句子的表示方面,微调的影响较弱,这表明模型泛化有待改进。