使用子词 RNN 模拟单词嵌入

EMNLPJul, 2017

Mimicking Word Embeddings using Subword RNNs

Yuval Pinter, Robert Guthrie, Jacob Eisenstein

TL;DR本文介绍 MIMICK，它是一种通过学习从拼写到分布式嵌入的函数来组成生成超出词汇表词汇的嵌入的方法，并提高了词性标注等任务的性能。

Abstract

word embeddings improve generalization over lexical features by placing each word in a lower-dimensional space, using distributional information obtained from unlabeled data. However, the effectiveness of word embedding

word embeddings out-of-vocabulary words mimick spellings part-of-speech tagging

发现论文，激发创造

使用 LOVE 填充词汇外嵌入，低成本提高语言模型鲁棒性

使用模仿模型原理生成向量以解决自然语言处理系统中 Out-of-Vocabulary（OOV）单词脆弱性的问题，并提出了一种名为 LOVE 的简单的对比学习框架，可使现有预训练语言模型（如 BERT）的单词表示对 OOV 更为强健，并且在原始数据集和损坏的变体上显示出与之前竞争对手类似或更好的性能。

Mar, 2022

专注模仿：通过关注信息上下文获得更好的词嵌入

本文提出了一种注意力模仿算法，针对稀有词从表面形式和所有可用上下文信息中获取最具信息和可靠性的上下文信息来计算嵌入向量，评估结果表明，相较于之前的工作，该方法在提高中低频词的嵌入质量方面取得了更好的效果。

Apr, 2019

不受拼写错误影响的词嵌入

本文提出了一种基于 FastText 和子词（subwords）的方法，通过监督学习拟合拼写错误，使得单词的嵌入向量更加适用于包含大量未登录词的文本，并在公开测试数据集上对内在和外在的 NLP 任务进行了实验验证。

May, 2019

针对未登录词的少样本表示学习

本文提出了一种基于少样本回归的新型分层注意力神经网络结构来解决训练集中不存在的词导致词向量精度下降的问题，实验表明该方法在学习 OOV 词嵌入方面具有优越性。

Jul, 2019

稀有词汇：上下文嵌入的主要问题及关注模拟的解决方案

本文讨论使用语言建模目标预训练深度神经网络架构对自然语言处理任务的大幅改进。在此基础上，利用 Attentive Mimicking 这一方法适应于深度语言模型的 embeddings。作者提出一个单词级别的近似的过程，使得即使基础语言模型使用基于子词的标记化也能使用 Attentive Mimicking。通过作者自己创建的数据集进行评估，将经过改进的 Attentive Mimicking 加入 BERT 确实大大提高了其对稀有单词的理解能力。

Apr, 2019

使用子词袋来泛化字嵌入

本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Sep, 2018

基于轨迹的元学习：用于未知词嵌入学习

该论文提出了一种利用 Leap 元学习算法来学习 OOV 嵌入的方法，与 MAML 相比，Leap 可以更好地解决梯度方面的问题，并在评估中取得了与 MAML 相当或更好的性能，作者也探究了哪些上下文对学习 OOV 嵌入更有利，并提出了上下文选择可能比使用的元学习更重要。

Feb, 2021

序列标注中新词的任务特定表示学习

本研究提出了一种基于表面形式和上下文预测不能识别的单词的表示方法，解决了基于神经网络的序列标记系统中的词汇外问题（OOV problem），实验结果显示该方法在对比现有最先进的方法时表现更好。

May, 2019

联邦学习中的未登录词学习

本文介绍了使用基于字符级别的循环神经网络的联邦学习方法，以扩展智能手机虚拟键盘的词汇量，并且在不透露敏感文本的情况下学习未知单词（Out-of-Vocabulary Words）。研究表明该方法可行，并且在使用联合后验概率直接抽样的情况下，该模型对常用的未知单词有良好的识别以及较低的交叉熵损失。

Mar, 2019

定义建模：学习在自然语言中定义词嵌入

本文研究如何利用分布式表示生成单词的字典定义，介绍了几种基于 RNN 的定义模型，探讨了字母级别卷积层对词级嵌入的补充，最终通过错误分析揭示了模型的缺陷。

Dec, 2016