深度学习任务中词嵌入初始化的探索
本研究针对阅读理解任务过往的机器学习研究,发现所使用的预训练词向量和测试时的未登录词处理方法等看似微小的选择,比起架构选择对最终性能的影响更大。我们对这些选择进行系统探讨,为从事该领域研究的学者提供建议。
Mar, 2017
本文提出了一种评估单词表示学习方法的方法,即通过评估不同初始值下学习得到的单词表示的一致性。通过提出的度量标准,评估结果不仅揭示了单词嵌入方法的内在特性,还与下游任务的其他评估指标具有良好的相关性,这对于开发新的单词嵌入方法具有重要的鲁棒性特征的考虑是有用的。
May, 2016
该论文的第一部分介绍了词嵌入的必要性、创建方法、有趣的属性及其与图像嵌入的比较;第二部分实现了一个基于预训练词向量的卷积神经网络,用于几个句子级分类任务,取得了与最先进技术相当或领先的结果,说明与随机的词向量相比,预训练的词向量具有强大的能力。
Oct, 2016
本文研究了词嵌入在查询扩展中的应用,结果表明全局训练的 Word2Vec 和 GloVe 等词嵌入不能很好地完成信息检索任务,建议其他使用全局嵌入的任务也可以受益于使用局部嵌入。
May, 2016
本研究分析了预训练词向量在低资源场景下神经机器翻译性能提升方面的作用,通过五组实验结果表明,在某些情况下词向量的使用可以使翻译结果达到最高 20 个 BLEU 分数的提升。
Apr, 2018
本文通过分别使用推特数据、通用数据和两种数据的结合,提出了十种单词嵌入数据集,并且演示了如何将这些数据集应用于推特情感分析和推特主题分类等 NLP 任务。
Aug, 2017
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
Jan, 2019
本研究旨在探究深度上下文嵌入(例如 BERT)相对于传统预训练嵌入(例如 GloVe)和一个更简单的基准(随机词嵌入)在训练集大小和语言任务的语言特性等方面,性能是否有大幅提升。我们发现,这两种更简单的基准线上也能匹配行业规模的数据中的上下文嵌入,并且通常在基准任务中具有 5-10% 左右的精度,此外,我们还确定了一些数据特性,这些特性针对于特定的任务使得上下文嵌入具有大幅提升的表现:包含复杂结构的语言、具有歧义的词汇使用、及在训练中从未出现过的单词。
May, 2020