本文介绍了 Massive Text Embedding Benchmark 评估了 33 种模型在 8 种嵌入任务和 112 种语言上的表现。结果发现,没有一种嵌入方法能够完全在所有任务上占优势,因此需要进一步研究和发展通用的文本嵌入方法。
Oct, 2022
大语言模型(LLM)革命中,嵌入是各种系统的关键组成部分。在本文中,我们迈出了迈向构建强大统一的嵌入模型的第一步,证明了多种语言(自然语言和编程语言)的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估,结果表明这是一条有希望的道路,可以应用于不同任务和语言。
Oct, 2023
利用大型语言模型丰富和重写输入文本,改善嵌入模型的性能,并在特定领域取得显著改进。
Apr, 2024
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
我们扩展了大规模文本嵌入基准(MTEB)以针对法语提出首个句子嵌入大规模基准,通过与 46 个嵌入模型的大规模比较和全面的统计测试,我们发现大型多语言模型在句子相似度上进行预训练的效果尤为出色。
May, 2024
该研究介绍了一套新颖的双语文本嵌入模型,能够处理长度长达 8192 个标记的文本输入,支持英语和目标语言,适用于文本检索、聚类和语义文本相似性计算等自然语言处理任务。通过专注于双语模型和引入独特的多任务学习目标,研究提高了 STS 任务模型性能,在目标语言理解和跨语言评估任务方面超过现有的多语言模型能力。此外,这些双语模型更高效,需要较少的参数和内存,因为它们具有较小的词汇需求。研究还扩展了大规模文本嵌入基准 (MTEB),加入了德语和西班牙语嵌入模型的基准,旨在促进这些语言的文本嵌入技术的进一步研究和发展。
Feb, 2024
该研究介绍了波兰大规模文本嵌入基准(PL-MTEB),它是一个包含 28 个不同自然语言处理任务的全面基准,涉及五种任务类型。研究人员通过波兰 NLP 社区先前使用的数据集对这些任务进行了适应。此外,研究人员创建了一个名为 PLSC(波兰科学图书馆语料库)的新数据集,其中包括波兰科学出版物的标题和摘要,用作两个新的聚类任务的基础。他们评估了 15 个可公开获取的文本嵌入模型,其中包括波兰语和多语言模型,并为每个任务类型和整个基准收集了详细结果。PL-MTEB 提供开源代码。
通过引入 Scandinavian Embedding Benchmark (SEB),该研究评估了 26 多个模型,揭示了公共和商业解决方案之间的显著性能差异,从而填补了评估斯堪的纳维亚语言文本嵌入的空白。
Jun, 2024
该论文系统地研究了面向通用文本表示的分层 BERT 激活,以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中,句子级别的嵌入与两个最先进的模型进行了比较,而段落级别的嵌入则在四个问答(QA)数据集上进行了学习排名问题设置的评估。结果表明,将预训练的 BERT 模型微调于自然语言推断数据上可以显著提高嵌入的质量。
Oct, 2019
我们提出了 GTE,一个用多阶段对比学习训练的通用文本嵌入模型,通过在多个数据源的各种混合数据集上进行对比学习,训练一个统一的文本嵌入模型。通过显著增加训练数据量,在无监督预训练和有监督微调阶段,取得了比现有嵌入模型更大的性能提升。此外,我们的模型在处理代码时无需额外细调每种编程语言,仅将代码视为文本就能超过类似大小的以前最佳代码检索器的性能。总之,我们的模型通过有效利用多阶段对比学习实现了令人印象深刻的结果,提供了一种强大而高效的文本嵌入模型,在各种 NLP 和代码相关任务中具有广泛的适用性。
Aug, 2023