语言模型分解：量化语言模型的依赖和相关性

EMNLPOct, 2022

语言模型分解：量化语言模型的依赖和相关性

Language Model Decomposition: Quantifying the Dependency and Correlation of Language Models

Hao Zhang

TL;DR本文提出了一种基于线性依赖性的语言模型分解（LMD）方法，研究了预训练语言模型（如 BERT）之间的线性依赖关系，并且发现现有预训练语言模型之间高度相关，为了进一步推进最先进技术，需要更加多元化和新颖的模型。

Abstract

pre-trained language models (LMs), such as bert (Devlin et al., 2018) and its variants, have led to significant improvements on various nlp tasks

pre-trained language models linear dependency language model decomposition bert nlp tasks

发现论文，激发创造

基于结构的排序：依赖探测的语言模型排名

通过衡量语言模型上下文嵌入中恢复标记树的程度，我们提出使用考察探测来对语言模型进行排序，从而确定适合特定语言的最佳模型选择。在 46 种不同类型和结构的语言模型 - 语言对中，我们的探测方法预测最佳语言模型选择的准确率为 79％，比训练完整解析器需要更少的计算量。在本研究中，我们发现 RemBERT 是一个最近提出的解耦合语言模型，它显著包含较少的固有依赖信息，但通常在完全微调后可以产生最佳的解析器结果。在排除这个异常值后，我们的方法在 89％的情况下确定最佳的语言模型选择。

Jun, 2022

DeeLM: 提升依赖关系的大型语言模型用于句子向量表示

使用大型语言模型（LLMs）的句子嵌入的最新研究提出，然而大部分现有的 LLMs 都建立在自回归架构上，主要捕捉正向依赖，忽视反向依赖。本文首先提出定量证据，证明 LLMs 对反向依赖的学习有限。然后，我们提出一种称为依赖增强大型语言模型（DeeLM）的新方法来改善句子嵌入。具体而言，我们发现在 LLMs 中存在一个转折点，当超过特定的 LLM 层时，语义文本相似性（STS）任务的性能显著下降。STS 是评估句子嵌入的关键任务。我们提取转折点后的层使其双向，从而实现对反向依赖的学习。大量实验证明，DeeLM 优于基线方法，在各种 STS 任务中实现了最先进的性能。

Nov, 2023

Transformer 语言模型中的关系解码的线性性

基于 transformer 语言模型的研究中，发现存在一种简单而可解释的、但在各种情况下应用不一的知识表示策略，其主要通过关系、线性变换以及预测表达出来。

Aug, 2023

从语言模型中归纳语言结构

该论文研究了从语言模型中以无监督方式生成组成和依赖结构的问题，并通过一系列实验表明了其在语法结构识别方面的可行性和存在的限制。

Mar, 2024

基于依赖关系混合语言模型

本研究介绍了基于依赖关系的混合语言模型，利用神经网络训练学习未来依赖令牌的概率分布，并将其与自注意力机制混合，从而提高了神经文本生成的效果。

Mar, 2022

跨语言和语法下预训练模型的评估

我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法，将分析转化为序列标记，通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们，结果表明：（i）该框架在多种编码上一致，（ii）预先训练的词向量不偏好成分句法表示，而是倾向于依赖表示，（iii）子词标记化需要用于表示语法，与基于字符的模型不同，（iv）从词向量中恢复语法时，语言在预训练数据中的出现比任务数据的数量更重要。

Sep, 2023

语言建模的组合方法

本文提出了一种新的语言模型，通过序列组合树来取代之前基于线性链的假设，消除了结构上的任何假设，利用对比熵作为评估度量标准对新模型进行评估，相较于以往基于递归神经网络的模型，在失真级别上获得了超过 100% 的改进。

Apr, 2016

一个问题分解单元就足够了吗？

研究者们探讨了一种新的方法通过人在内的 NLP 研究，在不建立新模型的情况下，通过将数据分解为模型更易于回答的一系列简单问题来提高模型性能，证明了这种方法的可行性，可以作为建立大型语言模型的替代方案。

May, 2022

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024