Oct, 2023

DistillCSE:基于蒸馏的对比学习用于句子嵌入

TL;DR本文提出了 DistillCSE 框架,该框架基于自学习范式和知识蒸馏实现对比学习。通过使用基础模型来提供额外的监督信号,DistillCSE 具有自我增强的特点,可以通过知识蒸馏学习到更强的模型。通过进一步的定量分析,本文发现标准知识蒸馏存在教师模型 logits 的相对大方差,从而导致了严重的过拟合问题。为了缓解高方差引发的问题,本文提出了两种简单而有效的解决方案:一种是 Group-P 混洗策略作为隐式正则化方式,另一种是平均来自多个教师组件的 logits。在标准基准测试上的实验证明了 DistillCSE 的优越性,超越了许多强基线方法,并获得了新的最先进表现。