8192 个标记双语文本嵌入的多任务对比学习

Feb, 2024

8192 个标记双语文本嵌入的多任务对比学习

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

Isabelle Mohr, Markus Krimmel, Saba Sturua, Mohammad Kalim Akram, Andreas Koukounas...

TL;DR该研究介绍了一套新颖的双语文本嵌入模型，能够处理长度长达 8192 个标记的文本输入，支持英语和目标语言，适用于文本检索、聚类和语义文本相似性计算等自然语言处理任务。通过专注于双语模型和引入独特的多任务学习目标，研究提高了 STS 任务模型性能，在目标语言理解和跨语言评估任务方面超过现有的多语言模型能力。此外，这些双语模型更高效，需要较少的参数和内存，因为它们具有较小的词汇需求。研究还扩展了大规模文本嵌入基准 (MTEB)，加入了德语和西班牙语嵌入模型的基准，旨在促进这些语言的文本嵌入技术的进一步研究和发展。

Abstract

We introduce a novel suite of state-of-the-art bilingual text embedding models that are designed to support English and another target language. These models are capable of processing lengthy text inputs with up to 8192 tokens, making them highly versatile for a range of natural language proc

bilingual text embedding models natural language processing tasks semantic textual similarity multi-task learning massive text embedding benchmark

发现论文，激发创造

自然语言处理的多语言多模态嵌入

我们提出了一种新的判别模型，它从多语言和多模态数据中学习嵌入，因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估，以及对神经机器翻译进行评估，我们发现附加的多语言信号可以改进 ISR 和 STS 任务，并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表，从而产生强大的改进。

Feb, 2017

MTEB: 大规模文本嵌入基准测试

本文介绍了 Massive Text Embedding Benchmark 评估了 33 种模型在 8 种嵌入任务和 112 种语言上的表现。结果发现，没有一种嵌入方法能够完全在所有任务上占优势，因此需要进一步研究和发展通用的文本嵌入方法。

Oct, 2022

将大规模文本嵌入基准扩展至法语

我们扩展了大规模文本嵌入基准（MTEB）以针对法语提出首个句子嵌入大规模基准，通过与 46 个嵌入模型的大规模比较和全面的统计测试，我们发现大型多语言模型在句子相似度上进行预训练的效果尤为出色。

May, 2024

语言无关的 BERT 句子嵌入

本研究旨在通过探究多种单语和跨语言表示学习方法，如掩码语言建模，翻译语言建模和双编码器翻译排名等，结合预训练的多语言模型来学习多语言句子嵌入，并成功将其用于多语言文本检索和机器翻译任务中。

Jul, 2020

用于零样本跨语言传递和更多应用的大规模多语句向量化技术

该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构，其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示，并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练，可将其转移至任何一种语言，且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。

Dec, 2018

多语言通用句子编码器用于语义检索

本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型，并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中，以提高检索效率，与最先进的语义检索、翻译检索和检索问题回答模型相竞争，并在某些情况下超越了英文单语句子嵌入模型的表现水平。

Jul, 2019

北欧嵌入基准：多语言和单语文本嵌入的全面评估

通过引入 Scandinavian Embedding Benchmark (SEB)，该研究评估了 26 多个模型，揭示了公共和商业解决方案之间的显著性能差异，从而填补了评估斯堪的纳维亚语言文本嵌入的空白。

Jun, 2024

朝向具有多阶段对比学习的通用文本嵌入

我们提出了 GTE，一个用多阶段对比学习训练的通用文本嵌入模型，通过在多个数据源的各种混合数据集上进行对比学习，训练一个统一的文本嵌入模型。通过显著增加训练数据量，在无监督预训练和有监督微调阶段，取得了比现有嵌入模型更大的性能提升。此外，我们的模型在处理代码时无需额外细调每种编程语言，仅将代码视为文本就能超过类似大小的以前最佳代码检索器的性能。总之，我们的模型通过有效利用多阶段对比学习实现了令人印象深刻的结果，提供了一种强大而高效的文本嵌入模型，在各种 NLP 和代码相关任务中具有广泛的适用性。

Aug, 2023

文本嵌入的最新进展：MTEB 基准测试中最佳方法的综述

通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析，本文概述了通用文本嵌入模型的最新进展，突出了该领域的关键贡献和局限，并提出了潜在的灵感未来研究方向。

May, 2024

语言模型是通用嵌入器

大语言模型（LLM）革命中，嵌入是各种系统的关键组成部分。在本文中，我们迈出了迈向构建强大统一的嵌入模型的第一步，证明了多种语言（自然语言和编程语言）的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估，结果表明这是一条有希望的道路，可以应用于不同任务和语言。

Oct, 2023