本文介绍了一种利用无标签文本数据的无监督预训练词向量,通过加入未监督辅助损失(unsupervised auxiliary loss)来扩展分类模型的任务损失,确保学习到的词表示包含了从监督损失组件中学到的 task-specific 特征和从未监督损失组件中学到的更通用的特征,并在临床记录的叙述包含关系抽取任务上对其进行了评估,使用通用类型的词性标注器作为语言资源,在 THYME 数据集上实现了技术上的提高。
Aug, 2018
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
本文介绍了一种新颖的学习方法,用于关系分类的单词嵌入训练,并使用无标注语料库上的词汇关系特定特征预测名词对之间的单词,以将关系特定信息显式地纳入单词嵌入中。通过使用所学习的单词嵌入来构建特征向量,用于关系分类模型。在一个基于语义关系分类任务中,我们的方法表现显著优于基于之前介绍的单词嵌入方法的基准线,并与使用句法信息或手动构造的外部资源的先前最先进的模型相比,表现出了比较良好的结果。
Feb, 2015
本文提出了一种利用词典等词汇资源,采用图嵌入和跨语言向量空间转换技术,为未见过的单词诱导嵌入的方法,对多个基准测试进行了优化,表现出一致的性能提升。
Nov, 2018
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
提出一种新模型共同学习单词和语义嵌入,以解决现有方法无法区分单词不同含义的问题,利用大规模预料库和语义网络优化嵌入空间,并在各种任务中评估了该方法的优点。
Dec, 2016
本文探讨了一种半监督的方法,通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务,相比其他转移学习或添加标记数据和任务特定词典的方法,在命名实体识别和块分割等任务上实现了最先进的结果。
Apr, 2017
本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题,并提出了一种新的方案来保证映射的组合性,从而在维持直接单词翻译的竞争性表现的同时,实现了间接单词翻译的更好对齐。
本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示,相比于 SkipThought 等无监督方法,该方式在多种迁移学习任务中表现更优,因此表明自然语言推断适用于迁移学习。
May, 2017