异常维度编码专业知识
通过相关研究表明,Transformer-based 语言模型对剪枝通常非常强壮,但存在异常现象:仅禁用 BERT-base 的 110M 个参数中的 48 个,MNLI 的性能就下降了近 30%。该现象被认为与嵌入空间的几何形状有关,并且为减少未来模型中的异性提供了线索。
May, 2022
通过对多个预训练的多语种语言模型进行研究,探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好,且表示更各向同性。研究人员通过不同的操作(例如消除异常维度、聚类基于同性等操作)来改进多语种表示。
Jun, 2023
本文通过分析基于内在维度的微调现象,提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象,然后通过实验证明了常规预训练模型具有极低的内在维度。最后,作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。
Dec, 2020
本文发现虽然大多数研究查明 Transformer 是极为健壮的(指对剪枝的容忍度很高),但预先训练好的 Transformer 编码器对于在层输出中删除非常少的要素(模型权重的 < 0.0001%)却异常脆弱。本文发现,对于 BERT 和其他一些预先训练的编码器 Transformer,受影响的组件是 LayerNorm 中的缩放因子和偏差(scaling factors and biases),异常值是在预先训练中早期出现的高幅度归一化参数,并在整个模型中保持相同的维度位置。我们表明,禁用这些异常值显著降低了 MLM 损失和下游任务的性能。这种影响观察到 BART、XLNet、ELECTRA 等几个 BERT 类型的模型和其他流行的预先训练的 Transformer 架构中,也在 GPT-2 中展现了类似效应。
May, 2021
该研究旨在从新的角度 —— 发现内在的任务特定子空间,重新参数化和微调预训练语言模型。研究表明,在这个子空间中,预训练语言模型可以通过小部分可调参数进行有效地微调,而一些突兀出现的维度则关键地诱发了特定任务的知识。
May, 2023
我们提出了一个新的方法,通过研究 BERT 类型模型的潜在空间的几何特征,来探索预训练对 GLUE 基准任务表现的影响,并发现潜在空间的量化细胞密度与 GLUE 性能有着强烈的线性关系,这些结果表明可以减少预训练要求,通过模型潜在空间的几何特征来初始化模型。
Jun, 2024
使用预训练模型进行线性探测,当下游数据稀缺或少样本时,预训练特征可能是非常冗余的;而在少样本任务中,只使用最重要的特征维度的 1% 就能恢复与使用完整特征表示所达到的性能。根据理论分析,高方差和类中心之间距离较小的特征维度可能是影响少样本转移问题分类结果的混淆因素。通过调整特征重要性的软掩码来改善特征冗余问题,可以在各种预训练模型和下游数据集中提高少样本转移性能。
Oct, 2023
通过降维预训练表示空间,这篇论文展示了如何在情感识别任务中减少模型复杂性而不降低性能,并且模拟标签不确定性以提高模型的泛化能力和鲁棒性。此外,论文比较了情感模型在声学恶化下的鲁棒性,并观察到降维表示能够保持与全维表示相似性能而不发生显著的情感性能回归。
Dec, 2023
本研究通过无监督方法分析表示空间中的潜在概念,并考察了预训练模型和微调后模型间的相似性。结论显示:较高层次的潜在空间向任务特定概念演变,而较低层次则保留了预训练模型获得的通用概念;某些概念向输出类别具有极性,并可用于生成对抗性触发器。
Oct, 2022