Dec, 2022

弱监督对比预训练的文本嵌入

TL;DR本文提出了 E5 模型,通过对弱监督的大规模文本对数据集(CCPairs)的对比训练,得到一种最先进的文本嵌入模型,可用于检索、聚类和分类等任务,表现出色并具有迁移性。在 BEIR 和 MTEB 数据集上进行广泛评估,E5 在零样本和微调设置下均表现出良好的性能,是首个在 BEIR 检索数据集上优于强基线的模型,同时也击败了具有 40 倍参数的现有嵌入模型在 MTEB 基准测试中的表现。