提出了一种基于转移学习的方法来改善中文分词在低资源数据集上的效果,该方法在高资源数据集上训练教师模型,然后使用学习到的知识来初始化学生模型,并且通过一种加权数据相似性的方法在低资源数据集上训练学生模型,实验证明该方法显著提高了在低资源数据集上的表现,同时也取得了最新的最佳表现。
Feb, 2017
本文提出了一种新颖的神经网络框架,利用门控组合神经网络和 LSTM 语言评分模型,消除上下文窗口,可以利用完整的分词历史,产生分布式表示,从而实现中文分词,并在基准数据集上进行实验,结果不需要使用现有方法的特征工程,获得了与现有最先进方法相当甚至更好的性能。
Jun, 2016
本研究提出了一种贪心神经分词器,利用平衡的词和字符嵌入输入来增强现有模型的计算效率,并能在中文基准数据集上以非常高的速度和更高的准确率执行分词,从而实现真正的端到端分词。
Apr, 2017
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
本文介绍了一种在低资源语言环境下基于汉语的多语言机器翻译方法,并采用了单语词嵌入数据增强、双语课程学习、对比重排和一种新型的 Incomplete-Trust(In-trust)损失函数,实现了优于其他先进方法的性能。
Apr, 2022
该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进
Apr, 2023
提出了一种基于注意力机制编码解码框架的序列到序列的中文分词模型,拥有全局信息和多任务融合的能力,并在微博、北大和微软亚洲等数据集上取得了与最先进方法相当的竞争性能。
Nov, 2019
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
本文探讨了在训练数据有限的情况下,如何将单词分割为标准化的语素,提出了两种新的模型:LSTM 指针生成器和带有硬单调注意力的序列到序列模型,并在德语、英语、印度尼西亚语、波波卢卡语和特佩瓦语进行了实验。结果显示,在低资源情境下,这些新颖的方法比现有方法在所有语言上的准确度都高出 11.4%。然而,在真正的低资源语言波波卢卡语和特佩瓦语中,最好的模型仅获得了 37.4% 和 28.4% 的准确度,因此我们总结出标准化分割仍然是低资源语言中的一个具有挑战性的任务。
Oct, 2020
本文调查了低资源自然语言处理的相关方法,其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能,并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。