本文介绍了一种利用集成学习方法构建元嵌入(meta-embeddings) 的方式,通过将不同的公开嵌入集合相结合,提高嵌入语义的质量。和单个嵌入集相比,元嵌入可以更好地完成词相似性,词类标注等任务,并且具有更广泛的词汇覆盖。
Aug, 2015
本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入,使用线性变换和平均值将现有单词向量投射到公共语义空间,以保持原始嵌入的维度,并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估,我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性,并获取了在语义文本相似性方面具有竞争力的结果,并在单词相似性和词性标注方面得到了最先进的性能(英文和西班牙文)。跨语言元嵌入还表现出优秀的跨语言转移学习能力,即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。
Jan, 2020
通过构建一个辅助任务来重建词嵌入集成,从而规范主任务,从而在使用各种标记的词相似度数据集进行监督的基础上,显著改善了词相似度数据集的表现,并在序列标记和句子分类中进行了词元嵌入的重建。
Sep, 2018
本文研究了元词向量嵌入(meta-embedding)的学习方法,提出了利用加权拼接来学习更准确和广泛覆盖面的词向量的两种无监督方法,并在多个基准数据集上进行试验,结果表明这些加权拼接的 meta-embedding 方法优于以前的 meta-embedding 学习方法。
Apr, 2022
本文介绍了一种通过对两组不同的单词嵌入集进行算术平均的方法来生成元嵌入的方法,该方法比起更复杂的元嵌入学习方法表现更好,尽管不同源单词嵌入向量空间不可比较,但本文阐述了平均法之所以能够产生准确的元嵌入的原因。
Apr, 2018
本文提出了一个几何框架,用于学习来自不同嵌入源的单词元嵌入。该框架将嵌入转换为共同的潜空间,这使得对给定单词的不同嵌入进行简单平均更加易于处理。通过两种特定的几何变换(正交旋转和马氏度量缩放),得到了提出的潜空间。在几个单词相似性和类比测试中的实证结果说明了提出的框架的有效性。
Apr, 2020
介绍了一种通过神经网络自行学习嵌入向量的方法 —— 动态元嵌入,该方法在同一模型类别下,在各种任务中实现了最先进的性能,并展示了该技术如何在 NLP 系统中应用嵌入向量。
本文为填补学界在 Meta-embedding learning 系统调查领域的空白着重于分类 Meta-embedding learning 方法,并在讨论其限制和未来研究方向时,探究了该方法在多源嵌入语义中的优势。
提出了一种新的领域嵌入学习方法,通过元学习将过去领域的语料库利用起来来扩充当前领域的语料库,从而生成高质量的领域嵌入,从而提高下游 NLP 任务的性能。
May, 2018
本文研究了词嵌入在查询扩展中的应用,结果表明全局训练的 Word2Vec 和 GloVe 等词嵌入不能很好地完成信息检索任务,建议其他使用全局嵌入的任务也可以受益于使用局部嵌入。
May, 2016