Jun, 2021

深入探究微调如何改变BERT

TL;DR本文探讨了使用预训练的上下文相关表示的细调方法对词嵌入空间的影响,并使用两种探测技术分析英语 BERT 系列的细调。作者得出了一些结论,其中包括细调会通过增加相关标签的示例之间的距离来影响分类性能,还发现了一个对“细调总是提高性能”的普遍看法的例外,并且发现细调不会引入任意更改,而是在保留数据点的原始空间结构的同时将其调整到下游任务。