朝向具有多阶段对比学习的通用文本嵌入

Aug, 2023

朝向具有多阶段对比学习的通用文本嵌入

Towards General Text Embeddings with Multi-stage Contrastive Learning

Zehan Li, Xin Zhang, Yanzhao Zhang, Dingkun Long, Pengjun Xie...

TL;DR我们提出了 GTE，一个用多阶段对比学习训练的通用文本嵌入模型，通过在多个数据源的各种混合数据集上进行对比学习，训练一个统一的文本嵌入模型。通过显著增加训练数据量，在无监督预训练和有监督微调阶段，取得了比现有嵌入模型更大的性能提升。此外，我们的模型在处理代码时无需额外细调每种编程语言，仅将代码视为文本就能超过类似大小的以前最佳代码检索器的性能。总之，我们的模型通过有效利用多阶段对比学习实现了令人印象深刻的结果，提供了一种强大而高效的文本嵌入模型，在各种 NLP 和代码相关任务中具有广泛的适用性。

Abstract

We present GTE, a general-purpose text embedding model trained with multi-stage contrastive learning. In line with recent advancements in unifying various →

text embedding contrastive learning nlp tasks training data code retrieval

发现论文，激发创造

HU 参加 SemEval-2024 任务 8A：对比学习能否学习嵌入以检测机器生成的文本？

我们提出了一个基于对比学习的单一模型，通过数据增强和对比学习，在没有使用多个模型集合的情况下，达到与多模型相当的性能表现。

Feb, 2024

对比式预训练用于文本与代码嵌入

本文研究了使用对比方式的自监督无监督训练大规模文本向量化，得到的向量在文本与代码搜索中表现优异，相较于之前使用监督学习方法的实验结果，相对提升了 4% 到 23.4% 不等。

Jan, 2022

8192 个标记双语文本嵌入的多任务对比学习

该研究介绍了一套新颖的双语文本嵌入模型，能够处理长度长达 8192 个标记的文本输入，支持英语和目标语言，适用于文本检索、聚类和语义文本相似性计算等自然语言处理任务。通过专注于双语模型和引入独特的多任务学习目标，研究提高了 STS 任务模型性能，在目标语言理解和跨语言评估任务方面超过现有的多语言模型能力。此外，这些双语模型更高效，需要较少的参数和内存，因为它们具有较小的词汇需求。研究还扩展了大规模文本嵌入基准 (MTEB)，加入了德语和西班牙语嵌入模型的基准，旨在促进这些语言的文本嵌入技术的进一步研究和发展。

Feb, 2024

利用大型语言模型改进文本嵌入

通过使用合成数据和少于 1k 个训练步骤，我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同，我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据，我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明，我们的方法在高度竞争的文本嵌入基准上具有强大的性能，而不使用任何标记数据。此外，当用合成数据和标记数据的混合进行微调时，我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。

Dec, 2023

GISTEmbed: 文本嵌入微调中的引导样本选择

通过引入 GISTEmbed，在对比训练中通过导向模型增强批内负例选择，从而显著减少数据质量问题引入的噪声，并改善模型微调，从而提供了对规模较小模型的显著改进的框架，借助资源密集型的大型模型的能力，GISTEmbed 有可能革新高效且规模较小模型的创建方法，使得先进的 AI 技术更加可用和具有可承担性，从而在不同领域大大扩展了最先进的 AI 解决方案的影响和可及性。

Feb, 2024

大规模异构文本网络上的预测性文本嵌入

本文提出了一种名为预测性文本嵌入的半监督表示学习方法，它利用带标签和无标签数据来学习文本的嵌入，并将其表示为一种大规模异构文本网络，有效地降低了参数数量和效率。

Aug, 2015

生成表示指令调整

通过生成性行为表示指导调整（GRIT）技术，我们训练了一个大型语言模型，通过区分生成和嵌入任务来同时处理两者，该模型在大规模文本嵌入基准（MTEB）上取得了最佳结果，并在多个生成性任务中超越同类模型。通过进一步扩展，我们的模型在仍属于最佳嵌入模型的同时，优于我们尝试过的所有公开生成性语言模型。此外，我们发现 GRIT 能够实现生成性或嵌入数据的训练，并且无需性能损失。

Feb, 2024

文本嵌入的最新进展：MTEB 基准测试中最佳方法的综述

通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析，本文概述了通用文本嵌入模型的最新进展，突出了该领域的关键贡献和局限，并提出了潜在的灵感未来研究方向。

May, 2024

Gecko：从大型语言模型中提取的多功能文本嵌入

我们提出了一种紧凑而多功能的文本嵌入模型 Gecko，其通过利用大语言模型（LLMs）将知识从 LLMs 中提炼到检索器中来实现强大的检索性能。

Mar, 2024

MTEB: 大规模文本嵌入基准测试

本文介绍了 Massive Text Embedding Benchmark 评估了 33 种模型在 8 种嵌入任务和 112 种语言上的表现。结果发现，没有一种嵌入方法能够完全在所有任务上占优势，因此需要进一步研究和发展通用的文本嵌入方法。

Oct, 2022