ACLMay, 2021

迁移学习对深度自然语言处理模型中语言知识的影响?

TL;DR本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现,并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式,发现这些模型对于不同的任务有不同的语言知识保留或遗忘方式,这种模式在三个模型中都有所不同。