Dec, 2023

利用大型语言模型改进文本嵌入

TL;DR通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。