我们的研究聚焦于词形屈折在词汇外条件下的问题,通过开发三个系统并测试在词汇外数据集上的性能,我们发现逆行模型在现实情境下的词汇外数据上胜过了所有神经模型,并且由我们的 seq2seq 模型在 SIGMORPHON 2022 共享任务数据的大数据条件下达到了最先进的结果。
Apr, 2024
本研究提出了一种基于表面形式和上下文预测不能识别的单词的表示方法,解决了基于神经网络的序列标记系统中的词汇外问题(OOV problem),实验结果显示该方法在对比现有最先进的方法时表现更好。
May, 2019
使用模仿模型原理生成向量以解决自然语言处理系统中 Out-of-Vocabulary(OOV)单词脆弱性的问题,并提出了一种名为 LOVE 的简单的对比学习框架,可使现有预训练语言模型(如 BERT)的单词表示对 OOV 更为强健,并且在原始数据集和损坏的变体上显示出与之前竞争对手类似或更好的性能。
Mar, 2022
本文主要研究针对机器翻译中低资源语种的词汇缺失问题,提出了基于双语词表整合的方法和基于数据增强技术的方法,通过以词干和格标注扩充双语词表词汇以提高 SMT 的准确性,在 Sinhala-English 机器翻译任务中取得了改善。
Nov, 2020
本文介绍了一种基于多层数据扩增的 OOV 坚韧性槽填充模型,通过从词和槽的角度解决 OOV 问题。实验表明,该模型比现有模型和之前的最佳模型在 OOV 词和槽方面表现更出色。
Feb, 2023
本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习,并且相比于之前的方法,该方法可以实现更高的召回率和更高的准确性。
本文介绍了使用基于字符级别的循环神经网络的联邦学习方法,以扩展智能手机虚拟键盘的词汇量,并且在不透露敏感文本的情况下学习未知单词(Out-of-Vocabulary Words)。研究表明该方法可行,并且在使用联合后验概率直接抽样的情况下,该模型对常用的未知单词有良好的识别以及较低的交叉熵损失。
Mar, 2019
介绍了一种基于词和短语替换的数据增强技术,能够同时考虑到 Out-of-Vocabulary 问题的两种类型,语法和语义约束,从而提高了低资源语言对的机器翻译质量。
May, 2022
本文提出了一种基于声学增强的语言模型的后处理方法,通过基于语境和音素知识来匹配和恢复正确的上下文单词,该方法可以在多个类别中恢复平均 50% 的基于上下文的未登录词。
Jun, 2022
本研究开发了一种新型的神经主题模型,结合了来自预先训练的语言模型 BERT 的上下文化单词嵌入,无需使用任何词袋信息即可推断文档的主题分布,实验表明该模型在文档分类和主题连贯度指标方面优于现有主题模型,并可处理来自新到达文档的未见单词。
May, 2023