Aug, 2023

朝向具有多阶段对比学习的通用文本嵌入

TL;DR我们提出了 GTE,一个用多阶段对比学习训练的通用文本嵌入模型,通过在多个数据源的各种混合数据集上进行对比学习,训练一个统一的文本嵌入模型。通过显著增加训练数据量,在无监督预训练和有监督微调阶段,取得了比现有嵌入模型更大的性能提升。此外,我们的模型在处理代码时无需额外细调每种编程语言,仅将代码视为文本就能超过类似大小的以前最佳代码检索器的性能。总之,我们的模型通过有效利用多阶段对比学习实现了令人印象深刻的结果,提供了一种强大而高效的文本嵌入模型,在各种 NLP 和代码相关任务中具有广泛的适用性。