元嵌入作为辅助任务规则化
本文介绍了一种利用集成学习方法构建元嵌入(meta-embeddings) 的方式,通过将不同的公开嵌入集合相结合,提高嵌入语义的质量。和单个嵌入集相比,元嵌入可以更好地完成词相似性,词类标注等任务,并且具有更广泛的词汇覆盖。
Aug, 2015
提出一种无监督的本地线性元嵌入学习方法,使用预先训练好的分布式词嵌入生成更准确的元嵌入,表现优于该领域现有技术,建立新的元嵌入技术的最先进状态。
Sep, 2017
本文介绍了如何通过将不同的预训练句子编码器组合成句子元嵌入来解决无监督的语义文本相似性(STS)任务,我们在句子级别应用、扩展和评估了来自单词嵌入文献的不同元嵌入方法,并在 STS 基准测试和 STS12-STS16 数据集上设置了新的无监督状态,平均提高了 3.7% 至 6.4% Pearson 的 r 值。
Nov, 2019
本文介绍了一种利用无标签文本数据的无监督预训练词向量,通过加入未监督辅助损失(unsupervised auxiliary loss)来扩展分类模型的任务损失,确保学习到的词表示包含了从监督损失组件中学到的 task-specific 特征和从未监督损失组件中学到的更通用的特征,并在临床记录的叙述包含关系抽取任务上对其进行了评估,使用通用类型的词性标注器作为语言资源,在 THYME 数据集上实现了技术上的提高。
Aug, 2018
本文研究了元词向量嵌入(meta-embedding)的学习方法,提出了利用加权拼接来学习更准确和广泛覆盖面的词向量的两种无监督方法,并在多个基准数据集上进行试验,结果表明这些加权拼接的 meta-embedding 方法优于以前的 meta-embedding 学习方法。
Apr, 2022
本文提出了一个几何框架,用于学习来自不同嵌入源的单词元嵌入。该框架将嵌入转换为共同的潜空间,这使得对给定单词的不同嵌入进行简单平均更加易于处理。通过两种特定的几何变换(正交旋转和马氏度量缩放),得到了提出的潜空间。在几个单词相似性和类比测试中的实证结果说明了提出的框架的有效性。
Apr, 2020
使用词相似度任务作为词向量内在评估的代理,但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题,并总结已有的解决方案,最后指出这种方法不具可持续性,需要进一步研究词向量的评估方法。
May, 2016
本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入,使用线性变换和平均值将现有单词向量投射到公共语义空间,以保持原始嵌入的维度,并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估,我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性,并获取了在语义文本相似性方面具有竞争力的结果,并在单词相似性和词性标注方面得到了最先进的性能(英文和西班牙文)。跨语言元嵌入还表现出优秀的跨语言转移学习能力,即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。
Jan, 2020