基于 Byte Pair Encoding 的转移学习方法对低资源语言进行神经翻译的改进,提高了翻译的质量。
Aug, 2017
该研究提出了一种转移学习的方法,通过先训练一个高资源语言对以及将一些已学习的参数转移至低资源语言对,来初始化和约束训练,显著提高了 Bleu 分数,并将低资源机器翻译性能接近于强的基于语法的机器翻译系统,超过了其一个语言对的性能,并且用于重新评分可以进一步提高低资源机器翻译的表现。
Apr, 2016
该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进
Apr, 2023
本文提出一种跨媒体对比学习方法,将几种低资源语言与高资源语言相连,通过少量的图像 - 文本对实现神经机器翻译,取得了显著的效果。
Oct, 2022
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
本文探讨了在语料库仅包含 324000 个句子的低质量语言对中使用迁移学习和半监督学习技术以优化神经机器翻译的效果,并且实验证明,这些技术应用于基础 Transformer 模型后,俄塔语对翻译质量提高了 2.57 和 3.66 个 BLEU 指标。
Oct, 2019
本文介绍了对低资源语言 NMT(LRL-NMT)的研究进展进行了详细调查,并定量分析了最受欢迎的解决方案,提供了一组指南来选择给定 LRL 数据设置的可能的 NMT 技术。它还呈现了 LRL-NMT 研究领域的完整视图,并提供了进一步增强 LRL-NMT 研究工作的建议清单。
Jun, 2021
本文提出了一种基于零资源的神经机器翻译方法,该方法假设平行句子在第三种语言中生成的可能性相近,借助于一种现有的基于枢轴语言的 NMT 模型进行指导,在没有平行语料库的情况下训练源语言到目标语言的 NMT 模型。实验结果表明,该方法在各种语言对上能够显著提高 BLEU 值 3.0 点以上。
May, 2017
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
通过跨语言预训练的双语预训练方法,建立了通用编码器,将传递者和接受者的语言空间对齐,使得零翻译成为可能。实验结果表明,该方法显著优于强的基准线和各种多语言 NMT 方法。
Dec, 2019