神经机器翻译的六大挑战
神经机器翻译(NMT)的进化受到六个核心挑战的显著影响,本研究重新审视这些挑战,提供有关高级大型语言模型(LLMs)背景下其持续相关性的见解:领域不匹配、平行数据量、罕见词预测、长句翻译、注意力模型作为词对齐以及次优束搜索,我们的实证发现表明 LLMs 在主要语言的预训练阶段有效减少对平行数据的依赖,LLM 基于的翻译系统显著提高了包含大约 80 个单词的长句翻译,并且可翻译长度达 512 个单词的文档。然而,尽管取得了显著改进,领域不匹配和罕见词预测的挑战仍然存在。虽然与 NMT 特定相关的词对齐和束搜索的挑战可能不适用于 LLMs,但我们确定了 LLMs 在翻译任务中面临三个新的挑战:推理效率、预训练阶段对低资源语言的翻译以及人对齐评估。数据集和模型在此 https URL 上发布。
Jan, 2024
本文评估了新兴的神经机器翻译系统和基于短语的机器翻译系统在九种语言方向上的表现,发现相对于基于短语的系统,神经机器翻译系统翻译更为流畅和准确,但在翻译超长句子时表现差。
Jan, 2017
本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉,以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明,搜索功能表现出色,但模型往往在假设空间中分散了太多的概率质量。此外,我们还提出了评估模型校准的工具,并展示了如何轻松解决当前模型的一些缺陷。
Feb, 2018
我们致力于构建一款通用的神经机器翻译系统,通过构建一个单一的大规模多语言 NMT 模型,实现了 103 种语言之间的翻译,带有有效的迁移学习能力,显着提高了低资源语言的翻译质量,同时保持高资源语言翻译质量与竞争双语基线相当,为实现通用 NMT 模型的质量和实用性提供了多个方面的模型构建分析,并指出未来研究的方向和需进一步解决的问题。
Jul, 2019
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
这篇论文探讨了上下文感知神经机器翻译的挑战与方法,并提出了一种更逼近真实情境的段落级翻译任务 para2para,同时提供了新的中英小说数据集以促进未来研究。
May, 2023
本文分析了神经网络机器翻译(NMT)与基于短语的机器翻译(PBMT)在英语 - 德语翻译数据集上的表现,从专业翻译的高质量后编辑结果中发现神经网络机器翻译在表述动词重新排序等语言现象时具有更好的建模能力,但仍有需要改进的方面。
Aug, 2016
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018