关于感知嵌入的 L2 范数的奇怪情况
本文通过理论证明和实验证明 Skip-gram 负采样法中词向量的平方范数编码了由 KL 散度定义的单词共现分布和语料库单纯分布之间的信息增益,进而通过关键词提取、上位词预测和词性鉴别等实验,确证了 KL 散度和词向量的平方范数可以作为单词相关信息量的一种度量方式,但需适当修正由单词频率造成的偏差。
Dec, 2022
本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法,通过 Sense 聚类和 Contextual 向量来辨别多义词的词义,相对于传统基于分布式模型的方法,我们的算法可以更好地处理语义相似性,通过对 SemEval-2010 数据进行的实验表明,本算法的效果优于所有参赛者及最近的大部分最新方法。
Jun, 2016
通过引入噪音亚百特信息编码的向量空间,使用探测框架扩展方法,研究了 GloVe 和 BERT 嵌入中向量范数如何编码不同种类的信息,发现 GloVe 在向量范数中存储了句法和句子长度信息,而 BERT 则将其用于编码上下文不连贯信息。
Oct, 2022
本研究提出一种新颖的在线算法,通过最小化上下文嵌入组内的距离来学习单词嵌入中每个维度的本质,以三种最先进的基于神经网络的语言模型 Flair、ELMo 和 BERT 生成上下文嵌入,为同一词汇类型生成不同的嵌入,这些嵌入由 SemCor 数据集手动标注的意义进行分组,结论表明本文提出的算法不会损伤性能,甚至能提高 3%,可以用于未来关于上下文嵌入可解释性的研究。
Nov, 2019
我们开发了一种简单而有效的方法来学习单词意义嵌入。通过聚类相关单词的自我网络,我们的方法可以从现有的单词嵌入中引出一种意义库,并通过学习的意义向量标记上下文中的单词,从而产生了下游应用。实验表明,我们的方法的性能与最先进的无监督 WSD 系统相当。
Aug, 2017
本文提出了一种通过将上下文词嵌入以及单词在语料库中的频率相结合,通过降低高频词的 L2 范数,在求取词间余弦相似度时有效解决现有计算方法低估的问题,实验结果表明了所提出方法的有效性。
May, 2023
本文探讨了自然语言处理中的一项工作,基于 BERT 嵌入空间来评估英语单词的多义和同音词意义之间的相关性。发现使用 BERT 嵌入模型能够在意义表示上更加清晰地捕捉多义性和同音词意的潜在结构,具有潜在的应用价值。
Oct, 2020
本文系统研究了几种静态词向量嵌入中单词频率与语义相似性之间的关联,并发现高频单词之间的相似性更高。同时,本文还探究了单词频率对基于嵌入的性别偏见测量的影响,并证明通过操纵单词频率可使偏见发生倒转。
Nov, 2022
本文提出了一种基于曼哈顿距离的后处理方法来提高跨语言词向量的质量,并在十种不同的语言和语料库上进行了广泛的实验证明该方法可以提高词向量在双语词典归纳和自然语言推理任务中的性能。
Apr, 2021
本篇研究通过使用大规模手动 Wikipedia 注释和词义,建立了一个新的数据集,其中将来自不同单词的词意通过语义类别相互关联。在此基础上,提出了一种新型的嵌入内容诊断测试方法,并通过将嵌入分类为语义类别进行嵌入空间分析。主要结论是:(i) 单向量嵌入通常很好地表现出词义的信息,但多义词的罕见含义对单向量嵌入的负面影响很小,对依赖于常见含义的自然语言处理应用的性能没有影响。
Jun, 2019