通过衡量语言模型上下文嵌入中恢复标记树的程度,我们提出使用考察探测来对语言模型进行排序,从而确定适合特定语言的最佳模型选择。在 46 种不同类型和结构的语言模型 - 语言对中,我们的探测方法预测最佳语言模型选择的准确率为 79%,比训练完整解析器需要更少的计算量。在本研究中,我们发现 RemBERT 是一个最近提出的解耦合语言模型,它显著包含较少的固有依赖信息,但通常在完全微调后可以产生最佳的解析器结果。在排除这个异常值后,我们的方法在 89%的情况下确定最佳的语言模型选择。
Jun, 2022
使用大型语言模型(LLMs)的句子嵌入的最新研究提出,然而大部分现有的 LLMs 都建立在自回归架构上,主要捕捉正向依赖,忽视反向依赖。本文首先提出定量证据,证明 LLMs 对反向依赖的学习有限。然后,我们提出一种称为依赖增强大型语言模型(DeeLM)的新方法来改善句子嵌入。具体而言,我们发现在 LLMs 中存在一个转折点,当超过特定的 LLM 层时,语义文本相似性(STS)任务的性能显著下降。STS 是评估句子嵌入的关键任务。我们提取转折点后的层使其双向,从而实现对反向依赖的学习。大量实验证明,DeeLM 优于基线方法,在各种 STS 任务中实现了最先进的性能。
Nov, 2023
基于 transformer 语言模型的研究中,发现存在一种简单而可解释的、但在各种情况下应用不一的知识表示策略,其主要通过关系、线性变换以及预测表达出来。
Aug, 2023
该论文研究了从语言模型中以无监督方式生成组成和依赖结构的问题,并通过一系列实验表明了其在语法结构识别方面的可行性和存在的限制。
Mar, 2024
本研究介绍了基于依赖关系的混合语言模型,利用神经网络训练学习未来依赖令牌的概率分布,并将其与自注意力机制混合,从而提高了神经文本生成的效果。
Mar, 2022
我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法,将分析转化为序列标记,通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们,结果表明:(i)该框架在多种编码上一致,(ii)预先训练的词向量不偏好成分句法表示,而是倾向于依赖表示,(iii)子词标记化需要用于表示语法,与基于字符的模型不同,(iv)从词向量中恢复语法时,语言在预训练数据中的出现比任务数据的数量更重要。
Sep, 2023
本文提出了一种新的语言模型,通过序列组合树来取代之前基于线性链的假设,消除了结构上的任何假设,利用对比熵作为评估度量标准对新模型进行评估,相较于以往基于递归神经网络的模型,在失真级别上获得了超过 100% 的改进。
Apr, 2016
研究者们探讨了一种新的方法通过人在内的 NLP 研究,在不建立新模型的情况下,通过将数据分解为模型更易于回答的一系列简单问题来提高模型性能,证明了这种方法的可行性,可以作为建立大型语言模型的替代方案。
May, 2022
通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法,本文提出了未来改进大型语言模型鲁棒性的研究方向。
通过低秩分解方法,我们可以削减大型语言模型的冗余组件,压缩模型大小并保持与最先进压缩技术相当的准确性。
May, 2024