DeeLM: 提升依赖关系的大型语言模型用于句子向量表示

Nov, 2023

DeeLM: 提升依赖关系的大型语言模型用于句子向量表示

DeeLM: Dependency-enhanced Large Language Model for Sentence Embeddings

Xianming Li, Jing Li

TL;DR使用大型语言模型（LLMs）的句子嵌入的最新研究提出，然而大部分现有的 LLMs 都建立在自回归架构上，主要捕捉正向依赖，忽视反向依赖。本文首先提出定量证据，证明 LLMs 对反向依赖的学习有限。然后，我们提出一种称为依赖增强大型语言模型（DeeLM）的新方法来改善句子嵌入。具体而言，我们发现在 LLMs 中存在一个转折点，当超过特定的 LLM 层时，语义文本相似性（STS）任务的性能显著下降。STS 是评估句子嵌入的关键任务。我们提取转折点后的层使其双向，从而实现对反向依赖的学习。大量实验证明，DeeLM 优于基线方法，在各种 STS 任务中实现了最先进的性能。

Abstract

Recent studies have proposed using large language models (LLMs) for sentence embeddings. However, most existing LLMs are built with an autoregressive architecture that primarily captures forward dependencies while neglecting →

large language models backward dependencies dependency-enhanced large language model semantic textual similarity state-of-the-art performance

发现论文，激发创造

语言模型分解：量化语言模型的依赖和相关性

本文提出了一种基于线性依赖性的语言模型分解（LMD）方法，研究了预训练语言模型（如 BERT）之间的线性依赖关系，并且发现现有预训练语言模型之间高度相关，为了进一步推进最先进技术，需要更加多元化和新颖的模型。

Oct, 2022

词嵌入再探讨：LLMs 是否提供新的东西？

通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义，系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示，大型语言模型往往比经典模型更紧密地聚集语义相关的词，并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外，一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。

Feb, 2024

利用大型语言模型扩展句子嵌入

通过上下文学习，我们提出了一种基于上下文学习的方法，旨在提高句子嵌入的性能。我们的方法能够使大型语言模型生成高质量的句子嵌入，并且在语义文本相似度任务上表现与当前对比学习方法相当。通过调整模型大小，我们发现超过几十亿参数的模型会对语义文本相似度任务的性能造成损害，但最大的模型超过了其他模型，并在迁移任务上取得了新的最先进结果。我们还使用当前的对比学习方法对大型语言模型进行了微调，将包含我们基于提示的方法的 2.7B OPT 模型的性能超过了 4.8B ST5 的性能，在语义文本相似度任务上实现了新的最先进结果。

Jul, 2023

将 LLMs 转化为跨模态和跨语言检索系统

使用大型语言模型进行多模态双编码检索系统，能够在多种语言中匹配语音和文本，提升召回率并实现跨语言匹配。

Apr, 2024

构建更好的基于大型语言模型的稠密检索模型

提出了一种新颖的方法 LLaRA（LLM 适应于密集检索），它作为 LLM 的事后适应工具，用于密集检索应用。LLaRA 包括两个预处理任务：EBAE (基于嵌入的自编码) 和 EBAR (基于嵌入的自回归)，其中来自 LLM 的文本嵌入用于重建输入句子的标记并预测下一句的标记。LLaRA 简单、轻量且高效，应用于 LLMaMA-2-7B（基础）模型，在维基百科语料库上大大提升了模型对各种密集检索基准（如 MSMARCO 和 BEIR）的微调性能。

Dec, 2023

DEEM: 动态经验专家模型用于立场检测

使用大型语言模型和动态经验专家建模方法（DEEM）改进 LLMs 推理能力，实现更广泛和可靠的多方位分析，在三个标准基准测试中取得最佳结果并减少 LLMs 的偏差。

Feb, 2024

用自动生成的 NLI 数据集提升句子嵌入

通过自动生成的 NLI 数据集和以往方法相比，使用 Decoder-based 大型语言模型进行 fine-tuning，在无监督学习的情况下改进了句子嵌入的学习，达到了与人工评估相关系数 82.21 的平均水平，从而优于现有方法而不使用大量人工标注的数据集。

Feb, 2024

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个 LLM 增强的检索框架，我们显著提高了广泛使用的检索模型（如 Bi-encoders 和 late-interaction models）的效果，并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。

Apr, 2024

D2LLM：分解和蒸馏的大型语言模型用于语义搜索

D2LLMs-Decomposed and Distilled LLMs combine efficient bi-encoders with pooling by multihead attention and interaction emulation module, achieving nuanced understanding and pre-computability, surpassing baselines in various tasks.

Jun, 2024

使用孪生神经网络分析嵌入层和相似度得分

我们的研究比较了不同的领先嵌入算法及其碳足迹的准确性，从而为每个嵌入算法提供了一个全面的审视。

Dec, 2023