Jun, 2024

探索 Transformer 潜空间几何对下游任务性能的影响

TL;DR我们提出了一个新的方法,通过研究 BERT 类型模型的潜在空间的几何特征,来探索预训练对 GLUE 基准任务表现的影响,并发现潜在空间的量化细胞密度与 GLUE 性能有着强烈的线性关系,这些结果表明可以减少预训练要求,通过模型潜在空间的几何特征来初始化模型。