稀有词汇：上下文嵌入的主要问题及关注模拟的解决方案

AAAIApr, 2019

稀有词汇：上下文嵌入的主要问题及关注模拟的解决方案

Rare Words: A Major Problem for Contextualized Embeddings And How to Fix it by Attentive Mimicking

Timo Schick, Hinrich Schütze

TL;DR本文讨论使用语言建模目标预训练深度神经网络架构对自然语言处理任务的大幅改进。在此基础上，利用 Attentive Mimicking 这一方法适应于深度语言模型的 embeddings。作者提出一个单词级别的近似的过程，使得即使基础语言模型使用基于子词的标记化也能使用 Attentive Mimicking。通过作者自己创建的数据集进行评估，将经过改进的 Attentive Mimicking 加入 BERT 确实大大提高了其对稀有单词的理解能力。

Abstract

Pretraining deep neural network architectures with a language modeling objective has brought large improvements for many natural language processing tasks. Exemplified by →

deep neural network language modeling attentive mimicking rare words bert

发现论文，激发创造

专注模仿：通过关注信息上下文获得更好的词嵌入

本文提出了一种注意力模仿算法，针对稀有词从表面形式和所有可用上下文信息中获取最具信息和可靠性的上下文信息来计算嵌入向量，评估结果表明，相较于之前的工作，该方法在提高中低频词的嵌入质量方面取得了更好的效果。

Apr, 2019

BERTRAM：优化单词嵌入对上下文模型性能具有巨大影响

本文提出了一种名为 BERTRAM 的基于 BERT 的结构，用于为罕见词建立高质量的嵌入表示，从而提高深层语言模型在罕见词和中频词上的表现。实验表明，在罕见词探查任务和三种下游任务上，与 BERT 相结合可以显著提高罕见词和中频词的表示。

Oct, 2019

在线学习计算词向量

本文提出一种从少量辅助数据中即时预测稀有词嵌入的方法，并在阅读理解、文本蕴含和语言建模等任务中，与仅在任务端训练的嵌入相比，展现了更好的结果。

Jun, 2017

指向未知单词

本文针对 NLP 系统中稀有词和未知词的问题，提出了一种使用注意力机制的神经网络模型。该模型使用两个 softmax 层来预测条件语言模型中的下一个词，同时根据上下文情况来自适应地选择适合的 softmax 层。在 Europarl 英法平行语料和 Gigaword 数据集上，通过使用该模型进行神经机器翻译和文本摘要，我们观察到了实验结果的提高。

Mar, 2016

Dict-BERT: 使用词典增强语言模型预训练

本研究提出了一种基于字典定义增强语言模型预训练的方法，并在多个自然语言处理基准测试集上证明 Dict-BERT 模型能够显著提高对于生僻词的理解和各种下游任务的表现。

Oct, 2021

BERTTM：利用预训练语言模型的上下文化单词嵌入来进行神经主题建模

本研究开发了一种新型的神经主题模型，结合了来自预先训练的语言模型 BERT 的上下文化单词嵌入，无需使用任何词袋信息即可推断文档的主题分布，实验表明该模型在文档分类和主题连贯度指标方面优于现有主题模型，并可处理来自新到达文档的未见单词。

May, 2023

使用子词 RNN 模拟单词嵌入

本文介绍 MIMICK，它是一种通过学习从拼写到分布式嵌入的函数来组成生成超出词汇表词汇的嵌入的方法，并提高了词性标注等任务的性能。

Jul, 2017

上下文化注意力嵌入的主题

通过设计不同的探针实验，使用 BERT 和 DistilBERT，我们发现注意力框架在模拟主题词簇时发挥了关键作用，这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。

Jan, 2023

利用外部专家实现罕见词翻译的单次学习

提出一种通过使用指针网络和强化学习来控制模型 - 专家交互的通用方法，从而解决当前系统中翻译罕见单词的主要挑战，并通过使用基于短语的模型来模拟专家来补充神经机器翻译模型，以改善英语 - 西班牙语和德语 - 英语之间的翻译质量。

Sep, 2018

神经机器翻译中的词汇选择改进

本文提出两种方法解决神经机器翻译中罕见单词的误译问题，一为限制向量范数，避免高频词过度约束；二为引入词汇模块与其他模块联合训练得到更好的翻译结果。通过对 8 种语言对的数据进行测试，结果显示本文方法的 BLEU 分数提升了最高可达 +4.3，并且在几乎所有设置中优于基于短语的翻译。

Oct, 2017