深度学习任务中词嵌入初始化的探索

Nov, 2017

深度学习任务中词嵌入初始化的探索

An Exploration of Word Embedding Initialization in Deep-Learning Tasks

Tom Kocmi, Ondřej Bojar

TL;DR本研究探讨了深度学习中用于嵌入的各种随机和预先训练的初始化方法对四个自然语言处理任务性能的影响，结果表明预先训练的嵌入略优于随机初始化，但只要方差保持合理，各种随机初始化方法并没有显著差异，并发现高方差初始化会阻止网络使用嵌入空间而强制其使用其他自由参数来完成任务。

Abstract

word embeddings are the interface between the world of discrete units of text processing and the continuous, differentiable world of neural networks. In this work, we examine various random and →

word embeddings nlp tasks pretrained initialization random initialization neural networks

发现论文，激发创造

阅读理解中词嵌入的比较研究

本研究针对阅读理解任务过往的机器学习研究，发现所使用的预训练词向量和测试时的未登录词处理方法等看似微小的选择，比起架构选择对最终性能的影响更大。我们对这些选择进行系统探讨，为从事该领域研究的学者提供建议。

Mar, 2017

关于词嵌入方法的收敛性质

本文提出了一种评估单词表示学习方法的方法，即通过评估不同初始值下学习得到的单词表示的一致性。通过提出的度量标准，评估结果不仅揭示了单词嵌入方法的内在特性，还与下游任务的其他评估指标具有良好的相关性，这对于开发新的单词嵌入方法具有重要的鲁棒性特征的考虑是有用的。

May, 2016

词嵌入及其在句子分类任务中的应用

该论文的第一部分介绍了词嵌入的必要性、创建方法、有趣的属性及其与图像嵌入的比较；第二部分实现了一个基于预训练词向量的卷积神经网络，用于几个句子级分类任务，取得了与最先进技术相当或领先的结果，说明与随机的词向量相比，预训练的词向量具有强大的能力。

Oct, 2016

使用本地训练的单词嵌入进行查询扩展

本文研究了词嵌入在查询扩展中的应用，结果表明全局训练的 Word2Vec 和 GloVe 等词嵌入不能很好地完成信息检索任务，建议其他使用全局嵌入的任务也可以受益于使用局部嵌入。

May, 2016

预训练词嵌入何时、为何对神经机器翻译有用？

本研究分析了预训练词向量在低资源场景下神经机器翻译性能提升方面的作用，通过五组实验结果表明，在某些情况下词向量的使用可以使翻译结果达到最高 20 个 BLEU 分数的提升。

Apr, 2018

文本的神经嵌入

本文提出了一种新的自然语言文本嵌入方法，从语言模型的神经元权重来生成向量，称为神经嵌入，结果表明其在语义表达方面表现良好。

Aug, 2022

从推文和通用数据中学习的词嵌入数据集

本文通过分别使用推特数据、通用数据和两种数据的结合，提出了十种单词嵌入数据集，并且演示了如何将这些数据集应用于推特情感分析和推特主题分类等 NLP 任务。

Aug, 2017

自然语言处理任务中的迁移学习监督上下文嵌入

本文关注于从多个预训练的监督模型中提取表示，以丰富单词嵌入具有任务和领域特定的知识，实验表明这样的监督嵌入对于低资源情况有所帮助，但对于任务和领域的性质不同的扩展程度不同，而我们公开了我们的代码。

Jun, 2019

词向量：一份调查报告

本研究总结了最近的构建定长、密集、分布式单词表示的主要策略，并阐述了这些表示通常被称为单词嵌入，并除了编码出色的句法和语义信息之外，还被证明在许多下游自然语言处理任务中有用的额外特征。

Jan, 2019

上下文嵌入：何时值得使用？

本研究旨在探究深度上下文嵌入（例如 BERT）相对于传统预训练嵌入（例如 GloVe）和一个更简单的基准（随机词嵌入）在训练集大小和语言任务的语言特性等方面，性能是否有大幅提升。我们发现，这两种更简单的基准线上也能匹配行业规模的数据中的上下文嵌入，并且通常在基准任务中具有 5-10％左右的精度，此外，我们还确定了一些数据特性，这些特性针对于特定的任务使得上下文嵌入具有大幅提升的表现：包含复杂结构的语言、具有歧义的词汇使用、及在训练中从未出现过的单词。

May, 2020