EMNLPNov, 2022

对比学习能够学习通用的跨语言句子嵌入

TL;DR本文提出了 mSimCSE,在英文数据上进行对比学习,不需要平行数据,可以学习高质量的通用跨语种句子嵌入。在无监督和弱监督设置中,mSimCSE 在跨语种检索和多语 STS 任务上显著改进了先前的句子嵌入方法。在检索低资源语言和多语 STS 任务上,无监督的 mSimCSE 表现与完全监督的方法相当。当跨语言 NLI 数据可用时,性能可以进一步提高。