迭代领域修复反向翻译
通过将多种类型的知识,如句子、术语 / 短语和翻译模板有效地融入神经机器翻译 (NMT) 模型,我们提出了一个统一的框架,无需修改模型架构即可实现领域特定的翻译,显著提高了翻译质量和术语匹配准确性。
Dec, 2023
本文提出 MobileNMT,这是一个可以在移动设备上进行翻译的系统,该系统通过一系列的模型压缩原则与量化相结合来实现,与现有系统相比,其速度提高了 47 倍,节省了 99.5% 的内存,只损失了 11.6% 的 BLEU。
Jun, 2023
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023
本文讨论如何通过优化传输和一个完全无监督的插件来检测 NMT 中的幻觉,并表明该检测器不仅优于所有先前的基于模型的检测器,而且与训练在数百万个样本上的大型模型的检测器有竞争力。
Dec, 2022
本论文介绍了史蒂文斯理工学院提交的 WMT 2022 共享任务:混合代码机器翻译并针对该任务的两个子任务的技术改进,包括采用大型预训练多语言 NMT 模型和领域内数据集以及反向翻译和集成技术等,该系统取得了子任务 2 上的第一名和子任务 1 上的第一和第三名。
Oct, 2022
本研究对使用不同技术和数据集的阿塞拜疆语 - 英语 NMT 系统进行表现基准测试,并评估哪种分段技术在阿塞拜疆语翻译中效果最佳。结果显示,虽然 Unigram 分割可以提高 NMT 性能,而且阿塞拜疆语翻译模型随着数据集质量而不是数量的提高而具有更好的规模性,但跨域泛化仍然是一个挑战。
Jul, 2022
本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果,在低资源条件下提出了集成方法来缓解翻译质量的降低,并给出了在三个领域和四个语言对中的建议。
Jun, 2022
本研究提出了一种基于领域知识的命名实体识别方法,使用领域词典和标注数据来提高低资源领域中的命名实体识别效果,避免大规模数据调整的同时,在科技设备领域数据集上实现了显著的 F1 分数提升。
Mar, 2022
本研究通过构建共比赛语料库,从而为朝鲜语神经机器翻译模型提供北韩语言的数据训练。我们手动创建评估数据,研究适用于朝鲜语的自动对齐方法,最后证实了使用朝鲜双语数据训练的模型能够显著提高其翻译准确性。
Jan, 2022
描述了悉尼大学&JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向,并在所有参与者中获得了最佳的分数,使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法,包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面,我们分别尝试了自回归模型和非自回归模型,还提出了两种新颖的预训练方法,即去噪训练和双向训练,取得了 SOTA 的性能。
Jul, 2021