使用预训练字向量对卷积神经网络进行训练,支持 fine-tuning 并结合静态和动态字向量,以提高句子级分类准确率并在多项基准测试中超越现有技术。
Aug, 2014
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本研究针对阅读理解任务过往的机器学习研究,发现所使用的预训练词向量和测试时的未登录词处理方法等看似微小的选择,比起架构选择对最终性能的影响更大。我们对这些选择进行系统探讨,为从事该领域研究的学者提供建议。
Mar, 2017
本研究探讨了深度学习中用于嵌入的各种随机和预先训练的初始化方法对四个自然语言处理任务性能的影响,结果表明预先训练的嵌入略优于随机初始化,但只要方差保持合理,各种随机初始化方法并没有显著差异,并发现高方差初始化会阻止网络使用嵌入空间而强制其使用其他自由参数来完成任务。
Nov, 2017
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
采用标签 - 词汇联合嵌入法和注意力机制的词嵌入模型,用于文本分类并保持了词嵌入的可解释性,同时提供了利用其他信息的能力。在多个大型文本数据集上实验表明,该方法在准确率和速度方面均优于现有最先进方法。
May, 2018
本文提出了一种基于聚类词向量的文本分类方法,使用 K 均值算法构建超级词向量表征,建立特定于类别的词汇表以提高性能,在主题分类和极性分类任务中表现优异。
Jul, 2017
本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
Jan, 2019
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019