探寻嵌入的纹理:探讨嵌入的构造
本文利用结构探查方法研究成语信息在嵌入式系统中如何被结构化编码。静态嵌入法 (GloVe) 和上下文嵌入法 (BERT) 都能编码某些惯用信息,但在向量范数是否编码成语性的问题上存在矛盾现象,同时也指出了数据集的一些局限性和未来工作的方向。
Apr, 2023
本文通过理论证明和实验证明 Skip-gram 负采样法中词向量的平方范数编码了由 KL 散度定义的单词共现分布和语料库单纯分布之间的信息增益,进而通过关键词提取、上位词预测和词性鉴别等实验,确证了 KL 散度和词向量的平方范数可以作为单词相关信息量的一种度量方式,但需适当修正由单词频率造成的偏差。
Dec, 2022
本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷,并提出了基于多元高斯探针的内在探测框架,以便于检测词向量的语言信息。通过 36 种语言的实验证明,多数形态语法特征由少数神经元可靠编码,而 fastText 相较于 BERT 更加集中其语言结构。
Oct, 2020
在计算社会科学的各种应用中,静态词嵌入广泛存在并为实际决策做出了贡献,然而,从词嵌入统计中得出的下游结论的统计不确定性评估一直是具有挑战性的。本文提出了一种方法,通过使用多元正态模型的解析近似来获得 GloVe(Pennington 等,2014)的近似、易于使用和可扩展的重建误差方差估计,GloVe 是最广泛使用的词嵌入模型之一。为了展示具有方差(GloVe-V)的嵌入的价值,我们说明了我们的方法如何使核心词嵌入任务中的原则性假设检验变得合理,例如在向量空间中比较不同词对之间的相似性,评估不同模型的性能,并使用不同的词列表分析语料库中的种族或性别偏见的相对程度。
Jun, 2024
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019
本文研究表明,对于用于学习感知嵌入的训练语料库中使用频率相关的信息和感知嵌入的 L2 范数是一种有效的特征,可用于提高单词感知相关任务的性能,例如最高频率感知预测,上下文中的单词(WiC)以及单词感知消歧(WSD)。
Oct, 2022
本文旨在了解嵌入式中如何结构性地编码分类信息,通过设计新的上位词 - 下位词探查任务并进行探查研究,我们发现分类嵌入式和主题嵌入式都会编码一些分类信息,但编码的数量和几何特性都独立于编码器架构和嵌入式训练数据。尤其是,我们发现只有分类式嵌入与数据中的底层分布相关,才能携带分类信息。
Jan, 2023
本文提出了两个新模型,利用无监督学习改进词向量表示方法,得到噪声更少的词向量表示,这是通过利用深度前馈神经网络滤波器来强化有意义的信息,减弱噪声得到的,实验结果表明,过滤后的词向量表示比原始词向量更有效。
Oct, 2016
本文研究表明,基于预训练掩码语言模型的编码器推导出的上下文化字向量在层间分享一种共同的、可能不太理想的模式,即 BERT 和 RoBERTa 的隐藏状态向量中存在持续的异常值神经元。这些异常值与位置嵌入所捕获的信息密切相关。我们显示,裁剪这些异常值可提高向量之间的相似性,并导致更好的句子嵌入。
Nov, 2020
使用生成模型从灰盒句子嵌入中检索离散句子作为一项新的非监督探测任务,并表明其与下游任务性能的相关性,同时展示不同编码器生成的语言存在差异。应用该方法从句子嵌入中生成句子类比。
Nov, 2020