BGE M3-嵌入：通过自我知识蒸馏实现多语言、多功能、多粒度的文本嵌入

Feb, 2024

BGE M3-嵌入：通过自我知识蒸馏实现多语言、多功能、多粒度的文本嵌入

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

HTML

PDF

Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian...

TL;DR本文介绍了一种新的嵌入模型M3-Embedding，其以其多语、多功能和多粒度的通用性而脱颖而出。它支持100多种工作语言，展示了在多语言和跨语言检索任务上的最新性能，同时能够同时执行三种常见检索功能：密集检索、多向量检索和稀疏检索，为现实世界的信息检索应用提供了统一的模型基础。该模型能够处理不同粒度的输入，从短句到最长8192个标记的长文档。我们提出了一种新颖的自知识蒸馏方法，通过集成来自不同检索功能的相关性得分作为教师信号来增强训练质量，并优化了批处理策略，以确保嵌入的区分性。据我们所知，M3-Embedding是第一个实现如此强大通用性的嵌入模型。该模型和代码将公开在指定的URL链接中。

Abstract

In this paper, we present a new embedding model, called m3-embedding, which is distinguished for its versatility in Multi-Linguality, Multi-Functionality, and Multi-Granularity. It can support more than 100 worki

发现论文，激发创造

使用双向双编码器和加性边界 softmax 改进多语言句子嵌入

本研究提出了一种使用双向双编码器和加性边际softmax学习多语言句子嵌入的方法，能够在联合国(UN)平行语料库检索任务上取得最先进的结果，并使用检索到的语言对训练NMT模型。通过对我们的句子嵌入平均构建的简单文档级别嵌入进行实验，能在UN文档级别检索任务中取得97%以上的P@1。最后，我们在BUCC挖掘任务上评估了所提出的模型，利用原始余弦相似度得分的学习嵌入与当前最先进的模型相比取得了有竞争力的结果，并利用第二阶段的评分器在此任务上实现了新的最先进水平。

Feb, 2019

评估信息检索嵌入式API

通过对话题建模，本文分析了语义嵌入API在真实检索场景中的行为，如能力，成本及最佳实践等问题，为读者提供了适合其需要的合适的服务建议。

May, 2023

增强嵌入用于定制检索

信息检索中的全面检索方法被应用于大型语言模型的前提学习中，这些检索方法早期用于经典应用，但近期多用于异构且严格的应用，需要改进小K值的检索。我们提出了一种改进的密集检索方法，通过学习预训练嵌入的低秩残差适应来实现任务特定、异构且严格的检索，并在实验证明我们的方法相比于基于通用嵌入的基线有所改进。

Oct, 2023

JaColBERT和Hard Negatives：更好的检索性日语优先嵌入

JaColBERT, a document retrieval model specifically designed for Japanese, outperforms previous monolingual retrieval approaches and competes with multilingual methods, demonstrating great promise in supporting retrieval-enhanced application pipelines.

Dec, 2023

多语言马来西亚嵌入：利用大型语言模型进行语义表示

通过细调马来西亚语言模型，我们在涉及负面和正面成对单词的嵌入任务上进行了全面的探索，并发布了两个专为语义相似性和检索增强生成（RAG）定制的区别模型。我们的发现强调了我们的细调策略的有效性，并突出了在语义相似性和RAG任务中的性能提升。

Feb, 2024

BGE地标嵌入：用于检索增强的长上下文大语言模型的无分块嵌入方法

通过可扩展嵌入实现了高质量、灵活、具有成本效益的扩展大型语言模型的上下文，通过优化架构和训练方法，具有上下文扩展的高灵活性、低成本的训练和与现有大型语言模型的兼容性，进而在长上下文语言建模和理解任务上进行综合评估，验证了可扩展嵌入作为一种有效、高效、灵活和兼容的扩展大型语言模型上下文的方法。

Feb, 2024

ColBERT-XM: 零射多语信息检索的模块化多向量表示模型

这项研究提出了一种新颖的模块化密集检索模型ColBERT-XM，它通过学习单个高资源语言的丰富数据，并能够有效地零-shot转换到各种语言，从而消除了对特定语言的标记数据的需求。通过展示在零-shot场景中的娴熟表现，ColBERT-XM标志着向更可持续和包容的检索系统的转变，实现了多种语言的有效信息获取。我们公开发布我们的代码和模型供社区使用。

Feb, 2024

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个LLM增强的检索框架，我们显著提高了广泛使用的检索模型（如Bi-encoders和late-interaction models）的效果，并在LoTTE数据集和BEIR数据集上取得了最新的研究成果。

Apr, 2024

NV-Embed: LLM 训练通用嵌入模型的改进技术

通过引入各种架构设计和训练过程，NV-Embed模型显著提高了LLM作为多功能嵌入模型的性能，同时保持其简单性和可重现性，并取得了69.32的记录高分，在包括检索、重排序、分类、聚类和语义文本相似性任务在内的56个任务中名列第一。

May, 2024

文本嵌入的最新进展：MTEB基准测试中最佳方法的综述

通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析，本文概述了通用文本嵌入模型的最新进展，突出了该领域的关键贡献和局限，并提出了潜在的灵感未来研究方向。

May, 2024