低资源机器翻译中的语法差异处理
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译(NMT)模型,产生仅使用7万个训练数据令人满意的翻译结果。
Aug, 2017
本论文提出一种结合了回译和多语言神经机器翻译技术的新技术,通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果,并且能显著降低培训和部署成本。
May, 2018
本研究针对神经机器翻译中的迁移学习方法展开研究,发现在源语言和目标语言间无或很少平行语料时,配合的语言与源语言词序差异会对迁移学习的效益产生负面影响。为了解决这种差异性,我们提出预先调整辅助语言句子的次序以便与源语言统一词序并对父级模型进行训练。实验表明,消除差异性对于提高翻译质量来说具有显著的改善作用。
Nov, 2018
本文对神经机器翻译的数据生成进行了系统研究,比较了不同的单语数据使用方法和多个数据生成过程,并介绍了一些便宜易实现的新数据模拟技术。研究发现,通过回译技术生成人工平行数据非常有效,并给出了原因解释。
Mar, 2019
本文探讨神经网络机器翻译(NMT)在低资源条件下性能下降的原因,提出适应低资源环境时的注意事项和最佳实践,并在德语-英语和韩语-英语低资源翻译数据集上进行实验,发现经过优化的NMT系统可以在没有使用其他语言辅助数据的情况下,比以前报告的更少数据超越采用词组统计的基于规则的机器翻译(PBSMT),BLEU指标超过4个点。
May, 2019
本文主要研究神经机器翻译在低资源条件下的表现,提出通过对目标语句子进行回译生成人工数据的方法,并以提取 Tigrinya 语言为案例,研究了多种回译方法,最终发现及时利用中间语言进行回译是在低资源条件下提高性能的最有效方法。
Mar, 2021
本论文研究如何使用语言重叠来进行翻译,在仅有少量单语数据的情况下,结合去噪自编码、回译和对抗性目标,提出了一种名为NMT-Adapt的方法,实现了对低资源语言的翻译的提高。
May, 2021
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和/或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
本研究提出比以往更细致的“多样性”框架,将其分为词汇和句法多样性,并针对低资源和中资源机器翻译任务,提出创新的度量标准用于衡量这些不同方面的多样性。实证分析表明,使用核采样生成反向翻译能够提高最终模型性能,并且这种生成方法具有很高的词汇和句法多样性。研究还发现证据表明词汇多样性比句法多样性更重要。
Jun, 2022
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023