Feb, 2024

多语种 E5 文本嵌入:技术报告

TL;DR本技术报告介绍了开源多语言E5文本嵌入模型的训练方法和评估结果,该模型于2023年中期发布。提供了三种不同大小的嵌入模型(小/基础/大),在推理效率和嵌入质量之间取得平衡。训练过程遵循英文E5模型的方法,包括对10亿个多语言文本对进行对比预训练,然后在一系列标记数据集上进行微调。此外,我们引入了一种新的指令调整嵌入模型,其性能与类似规模的最先进英文模型相当。有关模型发布的信息可以在此https网址中找到。