Dec, 2020

内在维度解释语言模型微调的有效性

TL;DR本文通过分析基于内在维度的微调现象,提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象,然后通过实验证明了常规预训练模型具有极低的内在维度。最后,作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。