Feb, 2024

8192 个标记双语文本嵌入的多任务对比学习

TL;DR该研究介绍了一套新颖的双语文本嵌入模型,能够处理长度长达 8192 个标记的文本输入,支持英语和目标语言,适用于文本检索、聚类和语义文本相似性计算等自然语言处理任务。通过专注于双语模型和引入独特的多任务学习目标,研究提高了 STS 任务模型性能,在目标语言理解和跨语言评估任务方面超过现有的多语言模型能力。此外,这些双语模型更高效,需要较少的参数和内存,因为它们具有较小的词汇需求。研究还扩展了大规模文本嵌入基准 (MTEB),加入了德语和西班牙语嵌入模型的基准,旨在促进这些语言的文本嵌入技术的进一步研究和发展。