上下文化词表示的低维线性几何
本文探讨了BERT对句法层次结构、位置信息以及自注意力向量的编码,并发现BERT在较低的层次上良好地编码了位置信息,在较高的层次上则更倾向于编码层次结构,这表明BERT的表示法确实模拟了语言的一些层次结构,并且对于处理反身代词的普遍敏感性没有人类大脑那么强。
Jun, 2019
本文描述了一种特别有效的模型BERT,它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息,同时还探讨了注意力矩阵和单词嵌入中的句法表示,并提出了一种数学证明来解释这些表示的几何形态。
Jun, 2019
用上下文化单词表示替代静态单词嵌入在许多自然语言处理任务中都有很大的提升。本文研究了从 ELmo 和 BERT 等模型生成的上下文化表示到底有多少有多少上下文性,是否针对每个单词有无限多个上下文相关的表示,还是本质上分配了一个有限数量的单词感觉表示。
Sep, 2019
通过研究BERT中的单词上下文含义的量化,我们展示了预训练语言模型如何解释单词在上下文中的重要性,结果显示顶层语义表示对于任务的推断非常准确,底层语义表示更具可转移性。
Apr, 2020
本文讲述了如何通过自动生成语义不同但结果相似的句子组集来学习一种转换,以去除词法语义但保留结构信息,并证明这种方法在结构聚类方面的效果优于词汇语义聚类方法,最终在少样本解析任务中优于原始上下文化语言表示。
Oct, 2020
本研究使用Poincare探针将contextualized word embeddings映射到具有明确定义层次结构的Poincare子空间中,发现在句法子空间中我们的探针比欧几里德探针更好地恢复了树结构,同时在情感子空间中,我们揭示了正面情感和负面情感的两种潜在的元嵌入,并展示了词汇受控情境化将如何改变嵌入的几何定位。
Apr, 2021
本文使用XLM-R为案例研究,研究了多语言语言模型如何在维持共享多语言表示空间同时在每种语言中编码语言敏感信息,并证明了多语言语言模型沿着语言敏感和语言中性轴编码信息,使其能够提取下游任务和跨语言传递学习的各种特征。
May, 2022
通过使用结构化的变分自编码器进行完全无监督的学习,得出语境化嵌入的表征空间存在潜在状态的网络,这些状态不仅作为表示流形的拓扑结构的锚点,还揭示了对句子进行编码的内部机制。同时,表明句子作为潜在网络上的遍历,状态转换链编码了句法模板,状态-词发射填充了内容。
Jun, 2022
通过引入度量学习编码模型(MLEMs)作为一种新方法,本研究运用MLEMs将从BERT提取的神经表示应用于跟踪各种语言特征,并发现:(1)语言特征被排序,不同层次中句子的表示有不同程度的分离;(2)神经表示按层次组织,某些层次中,表示被嵌套在更大的表示群集中,遵循连续重要的语言特征;(3)语言特征在中间层次被解耦,不同语言特征激活不同的单位。在方法上,MLEMs优于多变量解码方法(4),更robust于Ⅰ类错误,并且优于单变量编码方法(5),能够预测局部和分布式表示。这证明了度量学习编码方法在研究语言模型中语言特征如何神经编码以及MLEMs相较传统方法的优势。MLEMs可以用于其他领域(例如视觉)和其他神经系统,如人脑。
Feb, 2024
本研究解决了预训练语言模型中多义词的上下文表示能力不足的问题。通过实证实验,我们发现不同子层对于多义词的上下文表示有显著影响,尤其是在句子中词的位置和上下文长度方面。主要发现表明,在短上下文窗口中,BERT的上层子层对于特定位置的词拥有较高的上下文能力,但这种能力不能广泛推广至其他位置和上下文大小。
Sep, 2024