不受拼写错误影响的词嵌入

May, 2019

Misspelling Oblivious Word Embeddings

Bora Edizel, Aleksandra Piktus, Piotr Bojanowski, Rui Ferreira, Edouard Grave...

TL;DR本文提出了一种基于 FastText 和子词（subwords）的方法，通过监督学习拟合拼写错误，使得单词的嵌入向量更加适用于包含大量未登录词的文本，并在公开测试数据集上对内在和外在的 NLP 任务进行了实验验证。

Abstract

In this paper we present a method to learn word embeddings that are resilient to misspellings. Existing word embeddings have limited appli

word embeddings fasttext misspellings supervised learning nlp

发现论文，激发创造

使用子词 RNN 模拟单词嵌入

本文介绍 MIMICK，它是一种通过学习从拼写到分布式嵌入的函数来组成生成超出词汇表词汇的嵌入的方法，并提高了词性标注等任务的性能。

Jul, 2017

MockingBERT: 为 NLP 模型添加后期弹性的方法

该研究提出了一种新的方法，增加基于变压器的 NLP 模型的抗拼写错误能力，而无需重新训练原始 NLP 模型，仅在没有拼写错误输入的情况下略有语言理解能力下降，并且还提出了一个新的高效近似的对抗拼写错误生成方法，显著降低了评估模型对对抗攻击的鲁棒性所需的成本。

Aug, 2022

使用子词袋来泛化字嵌入

本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题，并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。

Sep, 2018

将未见过的单词映射到任务训练的嵌入空间

该研究在监督式训练中，通过利用神经网络将词向量映射到任务特定的向量空间，以解决测试集中新词的嵌入问题。实验结果表明，该技术可以显著提高依赖分析和情感分析的效果。

Oct, 2015

在线学习计算词向量

本文提出一种从少量辅助数据中即时预测稀有词嵌入的方法，并在阅读理解、文本蕴含和语言建模等任务中，与仅在任务端训练的嵌入相比，展现了更好的结果。

Jun, 2017

基于去文本化嵌入的无监督词汇替换

本文采用预训练语言模型提出一种新的无监督词汇替换方法，通过根据单词在多个上下文中的平均上下文表示相似性来检索替代词，实验表明该方法在英语和意大利语上表现明显优于强基线，并且能够成功预测低频替代词且不受形态和句法中的词汇一致性的影响。

Sep, 2022

通过对齐异构词汇语义空间实现未见词表示

本文提出了一种利用词典等词汇资源，采用图嵌入和跨语言向量空间转换技术，为未见过的单词诱导嵌入的方法，对多个基准测试进行了优化，表现出一致的性能提升。

Nov, 2018

多义词嵌入的概率 FastText

提出了一种新的单词嵌入模型 Probabilistic FastText，它可以同时捕捉到多个单词意义、子词结构和不确定性信息，使用高斯混合密度表示单词，包括词根和拼写错误等信息，比其他类似模型效果更好。

Jun, 2018

使用 LOVE 填充词汇外嵌入，低成本提高语言模型鲁棒性

使用模仿模型原理生成向量以解决自然语言处理系统中 Out-of-Vocabulary（OOV）单词脆弱性的问题，并提出了一种名为 LOVE 的简单的对比学习框架，可使现有预训练语言模型（如 BERT）的单词表示对 OOV 更为强健，并且在原始数据集和损坏的变体上显示出与之前竞争对手类似或更好的性能。

Mar, 2022

一种无监督且可定制的拼写错误生成器，用于挖掘嘈杂的与健康相关的文本来源

本研究提出了一种可定制化的数据中心系统，能够自动生成复杂健康相关词汇的常见拼写错误，其拼写变量生成器依赖于从大规模未标记的文本中学习的密集向量模型，能够在过滤词汇时递归执行，生成的变体可用于在噪声环境下进行健康文本挖掘。

Jun, 2018