Jun, 2021

BERTnesia: 探究 BERT 中知识的捕捉和遗忘

TL;DR这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识,并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现,中间层对于 BERT 模型中的总知识量贡献了很大的部分,同时发现 fine-tune 时,与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。