在线学习计算词向量

Jun, 2017

Learning to Compute Word Embeddings On the Fly

Dzmitry Bahdanau, Tom Bosc, Stanisław Jastrzębski, Edward Grefenstette, Pascal Vincent...

TL;DR本文提出一种从少量辅助数据中即时预测稀有词嵌入的方法，并在阅读理解、文本蕴含和语言建模等任务中，与仅在任务端训练的嵌入相比，展现了更好的结果。

Abstract

Words in natural language follow a zipfian distribution whereby some words are frequent but most are rare. Learning representations for words in the "long tail" of this distribution requires enormous amounts of data. Representations of →

zipfian distribution word representation pre-training embeddings rare words auxiliary data

发现论文，激发创造

通过对齐异构词汇语义空间实现未见词表示

本文提出了一种利用词典等词汇资源，采用图嵌入和跨语言向量空间转换技术，为未见过的单词诱导嵌入的方法，对多个基准测试进行了优化，表现出一致的性能提升。

Nov, 2018

高风险学习：从微小数据中获取新单词向量

本论文研究了分布式语义模型与小样本数据的问题，并展示了如何使用神经语言模型 Word2Vec，通过以前学习语义空间的背景知识，仅对其标准体系结构进行微小修改，以从微小数据中学习新术语，并在单词定义任务和少量上下文的例子任务中，相较于最先进的模型，呈现出大幅增长的性能。

Jul, 2017

词嵌入的一次性学习和少次学习

通过人类的单次或少次学习的能力，本文借鉴启发式的思想，提出了一种简单的技术，使深度循环网络能够利用其先前的知识从少量数据中学习新单词的有用表示，使自然语言处理系统更加灵活。

Oct, 2017

词向量：一份调查报告

本研究总结了最近的构建定长、密集、分布式单词表示的主要策略，并阐述了这些表示通常被称为单词嵌入，并除了编码出色的句法和语义信息之外，还被证明在许多下游自然语言处理任务中有用的额外特征。

Jan, 2019

稀有词汇：上下文嵌入的主要问题及关注模拟的解决方案

本文讨论使用语言建模目标预训练深度神经网络架构对自然语言处理任务的大幅改进。在此基础上，利用 Attentive Mimicking 这一方法适应于深度语言模型的 embeddings。作者提出一个单词级别的近似的过程，使得即使基础语言模型使用基于子词的标记化也能使用 Attentive Mimicking。通过作者自己创建的数据集进行评估，将经过改进的 Attentive Mimicking 加入 BERT 确实大大提高了其对稀有单词的理解能力。

Apr, 2019

飞行记录有助于 BERT 预训练

研究如何提高自然语言处理中无监督语言预训练的效率和利用率，在文本数据语料库中很多单词出现频率极低，本文通过提出一种名为 “TNF” 的方法，即在预训练过程中对极少出现的单词随时做笔记，并利用之前保存的上下文信息来增强当前句子中的语义，该方法在实验中验证了其有效性，并在训练时间上比使用其骨干预训练模型要快 60％，在下游任务和平均 GLUE 得分上也优于其骨干方法。

Aug, 2020

分布式词表示的预训练技术进展

本文着重讨论了如何通过使用已知技巧来训练高质量的单词向量表示，以提高自然语言处理任务的表现，并提供了一组公开可用的预训练模型，能在多项任务上远远优于现有技术。

Dec, 2017

BERTRAM：优化单词嵌入对上下文模型性能具有巨大影响

本文提出了一种名为 BERTRAM 的基于 BERT 的结构，用于为罕见词建立高质量的嵌入表示，从而提高深层语言模型在罕见词和中频词上的表现。实验表明，在罕见词探查任务和三种下游任务上，与 BERT 相结合可以显著提高罕见词和中频词的表示。

Oct, 2019

使用子词袋来泛化字嵌入

本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Sep, 2018

阅读理解中词嵌入的比较研究

本研究针对阅读理解任务过往的机器学习研究，发现所使用的预训练词向量和测试时的未登录词处理方法等看似微小的选择，比起架构选择对最终性能的影响更大。我们对这些选择进行系统探讨，为从事该领域研究的学者提供建议。

Mar, 2017