通过将单语数据与自动背景翻译配对,我们未改变神经网络结构,使用目标语单语训练数据进行神经机器翻译(NMT)模型的训练,并在多项任务上取得最新的最优结果(最高 + 2.8-3.7 BLEU),并证明了使用领域单语和平行数据进行微调,对 IWSLT 15 任务英德翻译有实质性的改善。
Nov, 2015
本文提出了一种新方法,通过联合 EM 优化方法融合源语言和目标语言的神经机器翻译模型,以更好地利用单语数据来提高翻译质量,实验结果表明,相对于使用单语数据训练的强基线系统,该方法可以同时提高源到目标和目标到源模型的翻译质量。
Mar, 2018
本文旨在研究如何利用视觉信息来弥补缺失的源文本背景,评估不同的多模态方法和视觉特征对最先进的同时机器翻译 (SiMT) 框架的影响。结果表明,视觉背景是有帮助的,基于明确的物体区域信息的可视化模型优于常用的全局特征,在低延迟情境下的表现可提高 3 个 BLEU 分数。我们的定性分析展示,只有多模态系统才能正常翻译英语到标记性别的语言,并处理英语和法语之间的形容词和名词词序等差异。
Sep, 2020
该研究旨在证明同时机器翻译系统应该使用实际口译数据进行训练和测试,对使用离线翻译数据进行训练的同时机器翻译系统进行评估,结果表明使用口译数据评估时,BLEU 分数可提高多达 13.83,提出了一种将离线翻译转换为口译风格数据的解决方法,并建议构建更适合评估和开发同时机器翻译系统的大规模口译语料库。
Oct, 2021
本文介绍了同时机器翻译(SimulMT)模型,包括其与源语句的单调对齐、测试方法的缺陷、以及人工标注的单调测试集 SiMuST-C 的验证、自动提取的单调训练集的优化等。实验表明,自动提取的单调训练集可以为 SimulMT 模型带来高达 3 个 BLEU 分数的提升。
Mar, 2023
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
本文提出了一种基于 SMT 的新颖方法,通过跨语言嵌入映射从单语料库中诱导短语表,再将其与 N-gram 语言模型相结合,通过无监督超参数微调的变体来实现迭代反向翻译,并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进,与监督 SMT 相比关闭了 2-5 BLEU 点的差距。
Sep, 2018
本文介绍了一种使用混合数据来训练 SimulST 模型的有效方法,该方法使用了同声传译的数据和离线的双语数据,以及风格标签来指示模型生成同声传译或离线风格的输出。实验结果表明在不同的延迟范围内 BLEURT 有所改善,并且分析结果表明该模型比基准模型生成了更多的同声传译风格的输出。
Jun, 2023
本文针对现有无监督机器翻译存在的不足之处,通过利用子词信息、开发理论上有根据的无监督调优方法和引入联合优化程序等手段,改进了统计机器翻译系统,并将其用于初始化双 NMT 模型并进行后续微调,使无监督机器翻译的表现大幅度提升。在英德无监督机器翻译领域,改进后的 SMT 系统相较之前最好的无监督系统 BLEU 值提高了 5.5 个百分点,超过了当时的(监督)任务获胜者。
Feb, 2019
本文提出了一种将翻译过程分解为单调翻译和重新排序步骤的新框架,并通过辅助排序网络模型来模拟其中的重新排序步骤,从而提高了同时翻译模型的翻译效果。
Jan, 2022