通过非监督加权合并源嵌入学习元词嵌入
提出一种无监督的本地线性元嵌入学习方法,使用预先训练好的分布式词嵌入生成更准确的元嵌入,表现优于该领域现有技术,建立新的元嵌入技术的最先进状态。
Sep, 2017
本文介绍了一种通过对两组不同的单词嵌入集进行算术平均的方法来生成元嵌入的方法,该方法比起更复杂的元嵌入学习方法表现更好,尽管不同源单词嵌入向量空间不可比较,但本文阐述了平均法之所以能够产生准确的元嵌入的原因。
Apr, 2018
通过构建一个辅助任务来重建词嵌入集成,从而规范主任务,从而在使用各种标记的词相似度数据集进行监督的基础上,显著改善了词相似度数据集的表现,并在序列标记和句子分类中进行了词元嵌入的重建。
Sep, 2018
本文介绍了一种利用集成学习方法构建元嵌入(meta-embeddings) 的方式,通过将不同的公开嵌入集合相结合,提高嵌入语义的质量。和单个嵌入集相比,元嵌入可以更好地完成词相似性,词类标注等任务,并且具有更广泛的词汇覆盖。
Aug, 2015
本文为填补学界在 Meta-embedding learning 系统调查领域的空白着重于分类 Meta-embedding learning 方法,并在讨论其限制和未来研究方向时,探究了该方法在多源嵌入语义中的优势。
Apr, 2022
本文提出了第一种元语义嵌入方法 - 近邻保留元语义嵌入,该方法通过组合多个独立训练的源感知嵌入来学习元感知嵌入,从而保留了源嵌入中计算的感知邻域,实验证明该方法在词义消歧和上下文词任务中持续优于竞争基线。
May, 2023
本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入,使用线性变换和平均值将现有单词向量投射到公共语义空间,以保持原始嵌入的维度,并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估,我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性,并获取了在语义文本相似性方面具有竞争力的结果,并在单词相似性和词性标注方面得到了最先进的性能(英文和西班牙文)。跨语言元嵌入还表现出优秀的跨语言转移学习能力,即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。
Jan, 2020
本文提出了一个几何框架,用于学习来自不同嵌入源的单词元嵌入。该框架将嵌入转换为共同的潜空间,这使得对给定单词的不同嵌入进行简单平均更加易于处理。通过两种特定的几何变换(正交旋转和马氏度量缩放),得到了提出的潜空间。在几个单词相似性和类比测试中的实证结果说明了提出的框架的有效性。
Apr, 2020
提出了一种全新的多语言词向量空间的无监督学习框架,该框架可以直接捕捉不同语言之间的交互关系,从而显著提高多语种单词转换和跨语种单词相似度的效果,并且比使用跨语种资源的监督式方法表现更好。
Aug, 2018
本文研究单词嵌入模型的集成式线性方法,使用基于普通最小二乘回归或正交 Procrustes 问题的迭代方法构造组合模型,并在爱沙尼亚语中进行了实验比较,结果表明使用正交 Procrustes 将多个单词嵌入模型组合成集成模型可能导致同义词测试中相对于初始模型的平均结果提高 7-10%和类比测试提高 19-47%。
Apr, 2017