迭代领域修复反向翻译

EMNLPOct, 2020

Iterative Domain-Repaired Back-Translation

Hao-Ran Wei, Zhirui Zhang, Boxing Chen, Weihua Luo

TL;DR本文提出了一种迭代式领域修复回译框架，通过域修复模型对合成双语数据进行优化，达到在特定领域适配 NMT 模型的效果提升。

Abstract

In this paper, we focus on the domain-specific translation with low resources, where in-domain parallel corpora are scarce or nonexistent. One common and effective strategy for this case is exploiting in-domain monolingual data with the →

domain-specific translation low resources back-translation method iterative domain-repaired back-translation framework nmt models

发现论文，激发创造

通过提示的多知识整合改进神经机器翻译

通过将多种类型的知识，如句子、术语 / 短语和翻译模板有效地融入神经机器翻译 (NMT) 模型，我们提出了一个统一的框架，无需修改模型架构即可实现领域特定的翻译，显著提高了翻译质量和术语匹配准确性。

Dec, 2023

MobileNMT：使 15MB 和 30ms 内进行翻译成为可能

本文提出 MobileNMT，这是一个可以在移动设备上进行翻译的系统，该系统通过一系列的模型压缩原则与量化相结合来实现，与现有系统相比，其速度提高了 47 倍，节省了 99.5% 的内存，只损失了 11.6% 的 BLEU。

Jun, 2023

使用一致性正则化的半监督神经机器翻译技术 —— 面向低资源语言

本文介绍一种半监督的方法来解决低资源语言机器翻译的问题，通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量，将交叉熵损失和 KL 散度相结合，特别是通过伪目标句子实现无监督训练，实验证明该方法可以显著提高 NMT 基线性能

Apr, 2023

神经机器翻译中无监督幻象检测的最优输运

本文讨论如何通过优化传输和一个完全无监督的插件来检测 NMT 中的幻觉，并表明该检测器不仅优于所有先前的基于模型的检测器，而且与训练在数百万个样本上的大型模型的检测器有竞争力。

Dec, 2022

基于大型预训练模型的流畅翻译 ——MixMT 2022 SIT

本论文介绍了史蒂文斯理工学院提交的 WMT 2022 共享任务：混合代码机器翻译并针对该任务的两个子任务的技术改进，包括采用大型预训练多语言 NMT 模型和领域内数据集以及反向翻译和集成技术等，该系统取得了子任务 2 上的第一名和子任务 1 上的第一和第三名。

Oct, 2022

评估阿塞拜疆语神经机器翻译

本研究对使用不同技术和数据集的阿塞拜疆语 - 英语 NMT 系统进行表现基准测试，并评估哪种分段技术在阿塞拜疆语翻译中效果最佳。结果显示，虽然 Unigram 分割可以提高 NMT 性能，而且阿塞拜疆语翻译模型随着数据集质量而不是数量的提高而具有更好的规模性，但跨域泛化仍然是一个挑战。

Jul, 2022

神经机器翻译中低资源域适应的正确配方寻找

本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果，在低资源条件下提出了集成方法来缓解翻译质量的降低，并给出了在三个领域和四个语言对中的建议。

Jun, 2022

利用领域知识进行低资源命名实体识别

本研究提出了一种基于领域知识的命名实体识别方法，使用领域词典和标注数据来提高低资源领域中的命名实体识别效果，避免大规模数据调整的同时，在科技设备领域数据集上实现了显著的 F1 分数提升。

Mar, 2022

学习如何通过韩语翻译朝鲜语

本研究通过构建共比赛语料库，从而为朝鲜语神经机器翻译模型提供北韩语言的数据训练。我们手动创建评估数据，研究适用于朝鲜语的自动对齐方法，最后证实了使用朝鲜双语数据训练的模型能够显著提高其翻译准确性。

Jan, 2022

2021 年 IWSLT USYD-JD 语音翻译系统

描述了悉尼大学＆JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向，并在所有参与者中获得了最佳的分数，使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法，包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面，我们分别尝试了自回归模型和非自回归模型，还提出了两种新颖的预训练方法，即去噪训练和双向训练，取得了 SOTA 的性能。

Jul, 2021