Aug, 2023

句级多模态和语言无关的表示

TL;DR我们引入了 SONAR,一个新的多语言和多模态的固定大小句子嵌入空间,在 xsim 和 xsim++ 多语言相似性搜索任务中,我们的单一文本编码器涵盖 200 种语言,表现明显优于现有的句子嵌入如 LASER3 和 LabSE。我们还提供了一个文本解码器,涵盖 200 种语言,可以执行文本到文本和语音到文本的机器翻译,包括零射语言和模态组合。尽管固定大小的瓶颈表示,我们的文本到文本结果与最先进的 NLLB~1B 模型相媲美,我们的零射语音到文本翻译结果与强大的有监督基线如 Whisper 相比也表现得出色。