本文提出了一种半监督文本分类的新型和简单的方法 - Delta-training,该方法使用先前预训练好的单词嵌入来初始化分类器的词嵌入,同时使用自训练框架的无标签数据和提前停止的方式来提高性能。
Jan, 2019
介绍了一种通过神经网络自行学习嵌入向量的方法 —— 动态元嵌入,该方法在同一模型类别下,在各种任务中实现了最先进的性能,并展示了该技术如何在 NLP 系统中应用嵌入向量。
Apr, 2018
本文介绍了一种利用集成学习方法构建元嵌入(meta-embeddings) 的方式,通过将不同的公开嵌入集合相结合,提高嵌入语义的质量。和单个嵌入集相比,元嵌入可以更好地完成词相似性,词类标注等任务,并且具有更广泛的词汇覆盖。
Aug, 2015
本文提出了两个新模型,利用无监督学习改进词向量表示方法,得到噪声更少的词向量表示,这是通过利用深度前馈神经网络滤波器来强化有意义的信息,减弱噪声得到的,实验结果表明,过滤后的词向量表示比原始词向量更有效。
Oct, 2016
提出一种无监督的本地线性元嵌入学习方法,使用预先训练好的分布式词嵌入生成更准确的元嵌入,表现优于该领域现有技术,建立新的元嵌入技术的最先进状态。
Sep, 2017
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
本文介绍了一种利用无标签文本数据的无监督预训练词向量,通过加入未监督辅助损失(unsupervised auxiliary loss)来扩展分类模型的任务损失,确保学习到的词表示包含了从监督损失组件中学到的 task-specific 特征和从未监督损失组件中学到的更通用的特征,并在临床记录的叙述包含关系抽取任务上对其进行了评估,使用通用类型的词性标注器作为语言资源,在 THYME 数据集上实现了技术上的提高。
Aug, 2018
该研究在监督式训练中,通过利用神经网络将词向量映射到任务特定的向量空间,以解决测试集中新词的嵌入问题。实验结果表明,该技术可以显著提高依赖分析和情感分析的效果。
Oct, 2015
本研究提出了一种专门针对企业环境进行微调的预训练嵌入模型的方法,通过使嵌入模型更适合企业中普遍存在的检索任务,旨在提高信息检索解决方案的性能,研究结果表明微调嵌入模型在改善企业环境下搜索结果的精确性和相关性方面是有效的。
May, 2024
本文探讨使用基于计数和基于预测结构构建的多种类型词向量嵌入在两个特定任务中的表现,即关系评估和方言识别,同时展示了这些嵌入的实用性以及在下游任务中的有效性。
Jul, 2016