上下文化词表示的低维线性几何
本文描述了一种特别有效的模型 BERT,它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息,同时还探讨了注意力矩阵和单词嵌入中的句法表示,并提出了一种数学证明来解释这些表示的几何形态。
Jun, 2019
高层语义概念在大型语言模型的表示空间中按线性方式编码;本研究通过引入简单的潜在变量模型来研究这种线性表示的起源,并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。
Mar, 2024
用上下文化单词表示替代静态单词嵌入在许多自然语言处理任务中都有很大的提升。本文研究了从 ELmo 和 BERT 等模型生成的上下文化表示到底有多少有多少上下文性,是否针对每个单词有无限多个上下文相关的表示,还是本质上分配了一个有限数量的单词感觉表示。
Sep, 2019
该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明,虽然这些表示在许多任务中表现出色,但对于需要细粒度语言知识的任务(如连词识别)而言,它们还不能胜任。此外,作者还比较了不同预训练和监督预训练方法对于任务训练的影响。
Mar, 2019
本文探讨了 BERT 对句法层次结构、位置信息以及自注意力向量的编码,并发现 BERT 在较低的层次上良好地编码了位置信息,在较高的层次上则更倾向于编码层次结构,这表明 BERT 的表示法确实模拟了语言的一些层次结构,并且对于处理反身代词的普遍敏感性没有人类大脑那么强。
Jun, 2019
本研究发现,通过预训练语言模型(LMs)建立的表征空间,不仅编码了单词及其关系等抽象语义概念,也能够识别如复杂性、正式程度和象征性等字词风格,以及使用在小数量文本中产生的矢量表征。此外,本文还对这些表征空间的词级与短语级特征进行了分析,并表明无论静态嵌入还是上下文化 LMs,都可以在对不同长度的文本进行字符化时得到更高的准确度。
May, 2023
研究了神经语言模型、翻译模型和语言标注任务中学习到的表示之间的关系,发现了一种低维的语言表示嵌入模型,可以编码处理各种 NLP 任务所需的表示之间的关系,并且可以用来预测各种特征空间与人类大脑对自然语言刺激的响应之间的映射关系,同时主要维度可以用于创建显示大脑的语言处理层次结构的度量。
Jun, 2021
以语义结构探测为方法,对来自不同家族(仅编码器、仅解码器、编码解码器)和大小的语言模型进行实验,评估其在语义文本相似度和自然语言推理方面的性能和层次动态,发现模型家族在性能和层次动态上存在显著差异,但结果大部分与模型大小无关。
Oct, 2023
语言模型利用线性表示假说来执行计算,但我们研究表明某些语言模型的表示可能是固有的多维的。我们开发了一种基于不可约多维特征的严格定义,用于确定这些特征是否能够分解为独立或非共现的低维特征。通过使用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征,这些自动发现的特征包括具有显著可解释性的例子,例如表示星期和月份的圆形特征。我们确定了使用这些确切圆形特征来解决涉及星期和月份的模块算术计算问题的任务。最后,通过对 Mistral 7B 和 Llama 3 8B 进行干预实验,我们提供了这些圆形特征在这些任务中确实是计算的基本单元的证据,并通过分解这些任务的隐藏状态为可解释的组件,找到了更多的圆形表示。
May, 2024