低资源语言的神经机器翻译
本文介绍了对低资源语言 NMT(LRL-NMT)的研究进展进行了详细调查,并定量分析了最受欢迎的解决方案,提供了一组指南来选择给定 LRL 数据设置的可能的 NMT 技术。它还呈现了 LRL-NMT 研究领域的完整视图,并提供了进一步增强 LRL-NMT 研究工作的建议清单。
Jun, 2021
本文探讨神经网络机器翻译(NMT)在低资源条件下性能下降的原因,提出适应低资源环境时的注意事项和最佳实践,并在德语 - 英语和韩语 - 英语低资源翻译数据集上进行实验,发现经过优化的 NMT 系统可以在没有使用其他语言辅助数据的情况下,比以前报告的更少数据超越采用词组统计的基于规则的机器翻译(PBSMT),BLEU 指标超过 4 个点。
May, 2019
本篇论文介绍了如何使用多语言神经机器翻译(multilingual NMT)解决低资源语种翻译问题,提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明,多语言 NMT 优于传统的双语 NMT,Transformer 模型优于循环神经网络模型,零样本 NMT 优于传统的基于中间语的翻译方法,甚至与完全训练的双语系统相当。
Sep, 2019
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
通过对印尼四种资源匮乏的本土语言:爪哇语、巽他语、民丹・卡巴乌语和巴厘语的神经机器翻译系统进行全面分析,本研究揭示了适用于资源匮乏语言翻译的实用策略,展示了实现竞争性翻译品质的神经机器翻译系统,对类似背景的研究者提供了有价值的指导。
Nov, 2023
本文提出了一种基于 SMT 的新颖方法,通过跨语言嵌入映射从单语料库中诱导短语表,再将其与 N-gram 语言模型相结合,通过无监督超参数微调的变体来实现迭代反向翻译,并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进,与监督 SMT 相比关闭了 2-5 BLEU 点的差距。
Sep, 2018
我们提出了一种基于可解释性的 NMT 训练方法,应用于无监督和有监督模型训练,用于翻译英语和三种不同资源的语言 —— 法语、古吉拉特语和哈萨克语。我们的结果表明,我们的方法在低资源条件下可以有希望,优于简单的训练基线;尽管改进只是微小的,但为进一步探索这种方法和参数以及其扩展到其他语言奠定了基础。
Nov, 2023
本文提出了将 SMT 模型融入 NMT 框架,通过辅助分类器和门函数来结合 SMT 的推荐和 NMT 的生成,从而提高中英翻译的性能。实验结果表明,该方法在多个测试集上均显著优于现有的 NMT 和 SMT 系统。
Oct, 2016
Google 发布的 GNMT 神经机器翻译系统采用 LSTM 深度学习网络,使用 attention 机制和残差连接,借助词元素 (wordpieces) 将单词划分为子单元,提高了稀有单词处理能力与整体系统精度。
Sep, 2016