Nov, 2023

DeeLM: 提升依赖关系的大型语言模型用于句子向量表示

TL;DR使用大型语言模型(LLMs)的句子嵌入的最新研究提出,然而大部分现有的 LLMs 都建立在自回归架构上,主要捕捉正向依赖,忽视反向依赖。本文首先提出定量证据,证明 LLMs 对反向依赖的学习有限。然后,我们提出一种称为依赖增强大型语言模型(DeeLM)的新方法来改善句子嵌入。具体而言,我们发现在 LLMs 中存在一个转折点,当超过特定的 LLM 层时,语义文本相似性(STS)任务的性能显著下降。STS 是评估句子嵌入的关键任务。我们提取转折点后的层使其双向,从而实现对反向依赖的学习。大量实验证明,DeeLM 优于基线方法,在各种 STS 任务中实现了最先进的性能。