使用子词 RNN 模拟单词嵌入
使用模仿模型原理生成向量以解决自然语言处理系统中 Out-of-Vocabulary(OOV)单词脆弱性的问题,并提出了一种名为 LOVE 的简单的对比学习框架,可使现有预训练语言模型(如 BERT)的单词表示对 OOV 更为强健,并且在原始数据集和损坏的变体上显示出与之前竞争对手类似或更好的性能。
Mar, 2022
本文提出了一种注意力模仿算法,针对稀有词从表面形式和所有可用上下文信息中获取最具信息和可靠性的上下文信息来计算嵌入向量,评估结果表明,相较于之前的工作,该方法在提高中低频词的嵌入质量方面取得了更好的效果。
Apr, 2019
本文提出了一种基于 FastText 和子词(subwords)的方法,通过监督学习拟合拼写错误,使得单词的嵌入向量更加适用于包含大量未登录词的文本,并在公开测试数据集上对内在和外在的 NLP 任务进行了实验验证。
May, 2019
本文提出了一种基于少样本回归的新型分层注意力神经网络结构来解决训练集中不存在的词导致词向量精度下降的问题,实验表明该方法在学习 OOV 词嵌入方面具有优越性。
Jul, 2019
本文讨论使用语言建模目标预训练深度神经网络架构对自然语言处理任务的大幅改进。在此基础上,利用 Attentive Mimicking 这一方法适应于深度语言模型的 embeddings。作者提出一个单词级别的近似的过程,使得即使基础语言模型使用基于子词的标记化也能使用 Attentive Mimicking。通过作者自己创建的数据集进行评估,将经过改进的 Attentive Mimicking 加入 BERT 确实大大提高了其对稀有单词的理解能力。
Apr, 2019
本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题,并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。
Sep, 2018
该论文提出了一种利用 Leap 元学习算法来学习 OOV 嵌入的方法,与 MAML 相比,Leap 可以更好地解决梯度方面的问题,并在评估中取得了与 MAML 相当或更好的性能,作者也探究了哪些上下文对学习 OOV 嵌入更有利,并提出了上下文选择可能比使用的元学习更重要。
Feb, 2021
本研究提出了一种基于表面形式和上下文预测不能识别的单词的表示方法,解决了基于神经网络的序列标记系统中的词汇外问题(OOV problem),实验结果显示该方法在对比现有最先进的方法时表现更好。
May, 2019
本文介绍了使用基于字符级别的循环神经网络的联邦学习方法,以扩展智能手机虚拟键盘的词汇量,并且在不透露敏感文本的情况下学习未知单词(Out-of-Vocabulary Words)。研究表明该方法可行,并且在使用联合后验概率直接抽样的情况下,该模型对常用的未知单词有良好的识别以及较低的交叉熵损失。
Mar, 2019
本文研究如何利用分布式表示生成单词的字典定义,介绍了几种基于 RNN 的定义模型,探讨了字母级别卷积层对词级嵌入的补充,最终通过错误分析揭示了模型的缺陷。
Dec, 2016