Gecko:从大型语言模型中提取的多功能文本嵌入
GECKO 是一种针对韩语和英语以及编程语言进行优化的双语大型语言模型 (LLM),通过 LLaMA 架构在平衡、高质量的韩语和英语语料库上进行预训练。该模型在韩语和英语的令牌生成效率上表现出色,尽管其词汇量较小。希望此研究能为韩语 LLM 研究提供一个基准和实际见解。
May, 2024
我们提出了 GTE,一个用多阶段对比学习训练的通用文本嵌入模型,通过在多个数据源的各种混合数据集上进行对比学习,训练一个统一的文本嵌入模型。通过显著增加训练数据量,在无监督预训练和有监督微调阶段,取得了比现有嵌入模型更大的性能提升。此外,我们的模型在处理代码时无需额外细调每种编程语言,仅将代码视为文本就能超过类似大小的以前最佳代码检索器的性能。总之,我们的模型通过有效利用多阶段对比学习实现了令人印象深刻的结果,提供了一种强大而高效的文本嵌入模型,在各种 NLP 和代码相关任务中具有广泛的适用性。
Aug, 2023
通过对最近大规模文本嵌入基准测试中表现最好的文本嵌入进行详细比较和分析,本文概述了通用文本嵌入模型的最新进展,突出了该领域的关键贡献和局限,并提出了潜在的灵感未来研究方向。
May, 2024
本文介绍了一种新的嵌入模型 M3-Embedding,其以其多语、多功能和多粒度的通用性而脱颖而出。它支持 100 多种工作语言,展示了在多语言和跨语言检索任务上的最新性能,同时能够同时执行三种常见检索功能:密集检索、多向量检索和稀疏检索,为现实世界的信息检索应用提供了统一的模型基础。该模型能够处理不同粒度的输入,从短句到最长 8192 个标记的长文档。我们提出了一种新颖的自知识蒸馏方法,通过集成来自不同检索功能的相关性得分作为教师信号来增强训练质量,并优化了批处理策略,以确保嵌入的区分性。据我们所知,M3-Embedding 是第一个实现如此强大通用性的嵌入模型。该模型和代码将公开在指定的 URL 链接中。
Feb, 2024
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
通过引入各种架构设计和训练过程,NV-Embed 模型显著提高了 LLM 作为多功能嵌入模型的性能,同时保持其简单性和可重现性,并取得了 69.32 的记录高分,在包括检索、重排序、分类、聚类和语义文本相似性任务在内的 56 个任务中名列第一。
May, 2024
本研究使用轻量级模型系统地探索学习通用句子嵌入的方法,证明了一种深薄编码器可以构建 109 种语言的强韧低维句子嵌入,并通过引入知识蒸馏方法进一步提高模型性能。实验证明,如此轻量级模型在 Tatoeba,联合国和 BUCC 上展现了出色的效果,并在 TensorFlow Hub 上发布了名为 LEALLA 的语言无关句子嵌入模型。
Feb, 2023
大语言模型(LLM)革命中,嵌入是各种系统的关键组成部分。在本文中,我们迈出了迈向构建强大统一的嵌入模型的第一步,证明了多种语言(自然语言和编程语言)的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估,结果表明这是一条有希望的道路,可以应用于不同任务和语言。
Oct, 2023
本文介绍了 Massive Text Embedding Benchmark 评估了 33 种模型在 8 种嵌入任务和 112 种语言上的表现。结果发现,没有一种嵌入方法能够完全在所有任务上占优势,因此需要进一步研究和发展通用的文本嵌入方法。
Oct, 2022