通过引入新颖的几何视角,本文揭示了 Transformer 操作的内部机制,主要贡献在于说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究,我们的发现揭示了早期层中的清晰查询 - 键注意力模式,并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察,我们给出了 Transformer 的直观理解,将其描述为沿着超球面的词粒子的轨迹的建模过程。
Sep, 2023
本文研究了 ELMO 和 BERT 中的单词表示的线性几何,发现低维子空间编码了各种语言特征,包括结构化依赖关系,子空间之间存在着层次关系,可以用于对 BERT 的输出分布进行细粒度的操作。
May, 2021
本文探讨了 BERT 对句法层次结构、位置信息以及自注意力向量的编码,并发现 BERT 在较低的层次上良好地编码了位置信息,在较高的层次上则更倾向于编码层次结构,这表明 BERT 的表示法确实模拟了语言的一些层次结构,并且对于处理反身代词的普遍敏感性没有人类大脑那么强。
Jun, 2019
本文从 BERT 的表示空间出发,通过一系列探针任务和属性方法探究模型的语言学知识表达方式,发现 BERT 倾向于对语法和语义异常进行编码,并能够明显地区分语法数和时态子空间。
Apr, 2021
本文分析了 BERT 在六种不同的任务中精细调整过程中所嵌入的句法树随着调整而演变的情况,结果表明编码的语法信息在不同任务的精细调整过程中被遗忘(词性标注)、强化(依存句法和组成成句)或保留(语义相关任务)。
Jan, 2021
我们提出了一个新的方法,通过研究 BERT 类型模型的潜在空间的几何特征,来探索预训练对 GLUE 基准任务表现的影响,并发现潜在空间的量化细胞密度与 GLUE 性能有着强烈的线性关系,这些结果表明可以减少预训练要求,通过模型潜在空间的几何特征来初始化模型。
Jun, 2024
本论文研究了通过将句法信息与深度学习模型相结合,提高自然语言处理任务的性能表现,对多特征的语法 - Transformer 进行了测试,发现在完整数据集和部分数据集中,BLEU 得分都有明显提升,同时,在 GLUE 基准测试中,语法嵌入的 BERT 微调在几个下游任务中表现优于基线。
Nov, 2019
本研究主要针对 BERT 模型进行分析,发现模型能够直观地表现出自然语言处理的步骤,并且通过语义角色的方式捕获文本中的语言信息。
May, 2019
该论文系统地研究了面向通用文本表示的分层 BERT 激活,以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中,句子级别的嵌入与两个最先进的模型进行了比较,而段落级别的嵌入则在四个问答(QA)数据集上进行了学习排名问题设置的评估。结果表明,将预训练的 BERT 模型微调于自然语言推断数据上可以显著提高嵌入的质量。
Oct, 2019
本文通过分析 BERT 的注意力机制及其输出结果,提出了新的方法并应用于其内部结构的探究,证明 Bert 的 attention heads 明显与语言的语法和指代有关,其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。