基于大型预训练模型的流畅翻译 ——MixMT 2022 SIT
该研究旨在解决低资源条件下代码混合翻译的问题,在数据生成和典藏方面投入了大量精力,通过限制解码效果得出最佳翻译结果,使用现有的机器翻译模型和对齐增强的预训练技术进行探索,最终实现了对应子任务最佳表现。
Oct, 2022
本文讨论了在 WMT 2022 共享任务中使用 mBART 进行处理特殊预处理和后处理(从 Devanagari 到 Roman 的音译),以解决单语到机器混合翻译的任务,并讨论了针对机器混合 Hinglish 到单语英语的翻译实验。
Oct, 2022
本研究尝试解决单语言和混合编码语言之间的翻译问题,针对单语英文到 Hinglish 的转换,我们提出了多种模型,其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时,我们还提出了一种生成混合编码文本的无依存方法,并采用课程学习方法来提高语言模型性能。在不同的条件下,我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强,在英语 - Hinglish 官方共享任务中我们的模型效果最佳。
May, 2021
WMT 共享任务中,我们获得了 92 个参与队伍提交的数据,使用 BLEU 自动评估指标对机器翻译中的翻译建议进行了评估,并提供了英德和英汉语料库来进行两个子任务的翻译建议。
Nov, 2022
该论文介绍了首个旨在提高机器翻译鲁棒性的共享任务的研究成果,共有 11 个团队提交了 23 个系统,人工评估和自动评估 (BLEU) 均显示很高的相关性,系统均有大幅度的改进,最佳系统较基准系统提高了 22.33 个 BLEU 分值。
Jun, 2019
本文关注代码切换社交媒体数据的机器翻译,在监督和非监督环境下提供了英语 - 印地语 - 英语(英 - 汉格利什)、英语 - 西班牙语 - 英语(英 - 西班格利什)和英语 - 现代标准阿拉伯语 - 埃及阿拉伯语(英 - 埃语)的语言对,分享了共同创作语言评估数据时的见解和挑战,并为共享任务中的所有语言提供了基线。在共享任务的排行榜中,共有来自 5 个不同团队的 12 个系统提交。其中最佳表现分别为英语到印地语的 12.67% BLEU 分数和现代标准阿拉伯语 - 埃及阿拉伯语到英语的 25.72% BLEU 分数。
Feb, 2022
本文介绍了 “Silo NLP” 的多模式翻译系统在 2022 年亚洲翻译研讨会上的参赛情况,利用 Transformers 和 mBART-50 模型作为基础,提取图像中的对象标签作为视觉特征,用于英语到印度语的多模式,以及英语到马拉雅拉姆语、孟加拉语等印度语系的文本翻译任务。该系统在多个任务中表现出色。
Aug, 2022
本文介绍了我们在 WMT2020 机器翻译共享任务中的参与情况和采用的多项神经机器翻译技术,在英汉、波兰英语和德国上索布里亚语等四个方向中,我们获得了第一名的好成绩。
Oct, 2020
本文介绍了腾讯的多语言机器翻译系统,该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题,其中在 WMT22 的有限数据情况下,取得了第一名的成绩。
Oct, 2022
本文介绍了 NICT 参与 WMT18 新闻翻译任务的结果,通过采用统计机器翻译和神经机器翻译系统以及使用大量反向翻译单语数据,结合使用 transformer architecture,对于爱沙尼亚语对英语、芬兰语对英语等语言方向实现了 BLEU 评分的领先。
Sep, 2018