BERT 句子嵌入中的语法信息作为二维数组

Dec, 2023

BERT 句子嵌入中的语法信息作为二维数组

Grammatical information in BERT sentence embeddings as two-dimensional arrays

Vivi Nastase, Paola Merlo

TL;DR通过使用来自语言模型的更高维数组，我们发现句子嵌入可捕获规则类的语法信息，进而帮助发展少样本学习方法。

Abstract

sentence embeddings induced with various transformer architectures encode much semantic and syntactic information in a distributed manner in a one-dimensional array. We investigate whether specific →

sentence embeddings transformer architectures grammatical information rule-like regularities few-shot learning approaches

发现论文，激发创造

句子嵌入是否存在可识别的结构部分

利用转换模型的句子嵌入可以编码大量语言信息，探索了这些嵌入是否包含可以分离的重叠信息层，并且可以检测特定类型的信息，如块和它们的结构和语义属性信息。通过使用包含已知块结构的句子数据集和两个语言智能数据集，解决依赖于检测块及其语法数量和语义角色的任务，并通过对任务表现和学习过程中构建的内部表示的分析，证明了这一点。

Jun, 2024

在基于 Transformer 的句子嵌入中解析连续与离散的语言信号

我们研究了如何将基于 transformer 的句子嵌入压缩成一种表示，以分离不同的语言信号，特别是与主谓一致和谓词交替相关的信息。通过在变分自编码器类似系统的潜在层中压缩共享目标现象的输入序列，我们发现目标语言信息变得更加明确。具有离散和连续组成部分的潜在层比只有离散或只有连续组成部分的潜在层更好地捕捉目标现象。这些实验是将分布式文本嵌入中的语言信号与更符号化的表示相分离并将它们联系起来的一步。

Dec, 2023

通过语法错误检测探索针对性的句法知识

本研究旨在利用语法错误检测作为一种诊断探针来评估预训练语言模型的令牌级上下文表示对主谓一致的了解程度，并评估了来自五个预训练语言模型的上下文表示。研究者发现，掩码语言模型线性编码了与 SVA 错误检测相关的信息，而自回归模型的表现与我们的基准线持平，但是当探针在不同的训练集上进行训练并在不同的句法结构上进行评估时，我们也观察到表现上的差异。

Oct, 2022

Transformers 中频率对句法规则学习的影响

本研究探讨预先训练的语言模型处理语言任务时是否具有一定程度的符号推理能力，并使用 BERT 模型的英语主语 - 谓语一致性表现为案例研究，发现 BERT 模型能够应用主语 - 谓语一致性规则进行推理，但受单词频率影响较大。

Sep, 2021

打开西门子：深入探讨 BERT 的语言知识

本文探讨了 BERT 对句法层次结构、位置信息以及自注意力向量的编码，并发现 BERT 在较低的层次上良好地编码了位置信息，在较高的层次上则更倾向于编码层次结构，这表明 BERT 的表示法确实模拟了语言的一些层次结构，并且对于处理反身代词的普遍敏感性没有人类大脑那么强。

Jun, 2019

可视化和测量 BERT 的几何形状

本文描述了一种特别有效的模型 BERT，它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息，同时还探讨了注意力矩阵和单词嵌入中的句法表示，并提出了一种数学证明来解释这些表示的几何形态。

Jun, 2019

单词和句子嵌入中的动词和论元结构转换

通过研究基于人工神经网络编码的句子语境和词汇形态，本研究构建了五个数据集并测试了模型的可靠性，结果显示该方法对于某些动词变化是可行的，但对于其他动词变化则难以提取细粒度的字面信息。

Nov, 2018

深度主体性：多语言 BERT 中的高阶语法特征

本文探讨了 Multilingual BERT（mBERT）如何编码文法，并研究了不同语言编码空间之间如何表现形态句法对齐的高级文法特征，结果表明 mBERT 表示受到不在任何一个输入句子中表现的高级文法特征的影响，而语法特征通过可靠的语义和话语因素进行编码，在更高层次上提供了文法特征在情境嵌入空间中如何表现的洞见。

Jan, 2021

BERT 是否真的赞同？对语法任务上词汇依赖的精细分析

该研究评估了基于 Transformer 的神经语言模型在语法识别任务中的一般性能力，特别是在处理句子结构和词汇形态方面的通用表现，描述了在有吸引因素的情况下，词汇独立的句法泛化失败的情况。

Apr, 2022

BERT 上语法信息编码的演进

本文分析了 BERT 在六种不同的任务中精细调整过程中所嵌入的句法树随着调整而演变的情况，结果表明编码的语法信息在不同任务的精细调整过程中被遗忘（词性标注）、强化（依存句法和组成成句）或保留（语义相关任务）。

Jan, 2021