通过对神经机器翻译实现对特定语言现象的质量评估,我们提出了一种新方法并给出了包含 97000 对用于 WMT 英语 -> 德语翻译任务的对照翻译数据集 LingEval97,对字符级别和字节对编码(BPE)分割模型的实验结果显示,前者在翻译转写方面表现更好,但在形态句法协议和翻译非连续的意义单元方面表现较差。
Dec, 2016
评估自然语言处理中评价指标对非标准化方言的鲁棒性,发现现有指标在对瑞士德语文本生成输出的评估上存在困难,提出了增加鲁棒性的初步设计方案。
Nov, 2023
本论文提出了一个带有丰富语篇注释的新数据集,并探讨了源语言和目标语言的语篇结构相似性和差异性以及其对机器翻译的挑战和机会,该资源可公开使用以促进未来在文档级机器翻译和其他语言翻译任务的研究。
May, 2023
为了推动代码翻译研究并满足实际应用的多样需求,构建了支持最多语言的大规模综合基准 CodeTransOcean,其中包括了多种新颖的多语种数据集,以及用于评估编译性能的新颖交叉框架数据集 DLTrans。还展示了多语种建模方法在提高低资源和高资源语言对的翻译质量和训练效率方面的巨大潜力,提出了一个用于程序级代码翻译的新型评估指标 Debugging Success Rate@K,并对未来研究的代码翻译挑战进行了分析。
Oct, 2023
通过使用机器翻译来增强现有的英文对话数据,我们提出了一个绕过数据缺乏问题的方法,用于开发鲁棒的多语言对话评估指标,并通过实验证明,与仅使用源数据微调多语言模型的强基线相比,仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反,最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据,排除低质量翻译对其性能的影响。
Aug, 2023
本文旨在创建一个 MQM 数据集,以系统地评估 7 个机器翻译系统中 5 种印度语言的翻译质量,并探讨自动化评估指标和人工评分之间的相关性。结果表明预先训练的指标 COMET 与人工评分相关性最高,但这些指标并未恰当地捕捉印度语言中的流畅性错误,因此需要开发注重印度语言的度量指标。
Dec, 2022
本研究通过对土耳其语系 22 种语言的大规模机器翻译系统的培训和评估,发现 MNMT 模型在领域外测试集中的表现优于几乎所有双语基线,并在单对下游任务的微调中也获得了巨大的性能提升。
Sep, 2021
研究了利用上下文进行神经机器翻译的模型,并提出了一种多编码器并解码两个句子以实现上下文输出的方法,该方法在指代和连贯性方面表现最佳。
Nov, 2017
本文介绍了 M3T,这是一个新颖的基准数据集,旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现,并解决了现实世界应用中丰富文本布局所带来的挑战。
Jun, 2024
提出了一种快速适应机器翻译系统生成不同于标准目标语言的语言变体的框架,通过对英俄翻译系统进行适应,可以生成乌克兰语和白俄罗斯语;适应英挪威博克马尔翻译系统可以生成尼诺斯克语;适应英语 - 阿拉伯语翻译系统可以生成四种阿拉伯方言,与竞争基线相比,取得了显著的改进。
Jun, 2021