医疗领域中领域适应的多语言神经机器翻译的影响
本文提出一种将多语言神经机器翻译模型域自适应的 Fine-tuning 方法,结合 Embeddings 冻结与对抗性损失,能在保持所有语言对的通用领域性能的同时,显著提高处理特定数据领域的性能。
Oct, 2022
本文介绍了一种适应新领域的神经机器翻译(NMT)系统,并展示了在两种语言对上,适应方法相比于常用方法在自动和人工评估测量标准下的显著性提升,而一般领域性能仅略有下降,适应过程快速且不需要重新训练 NMT 模型。
Dec, 2016
本文提出了一种无监督的自适应方法,使用伪域内语料库通过微调预先训练的域外 NMT 模型,借助词典诱导提取域内词汇,并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库,在 20 对自适应设置和两种模型架构的五个领域中,我们的方法始终显示出提高,而不需要使用任何域内平行句子,改进了未经过调整的模型高达 14 BLEU 和强反向翻译基线的最高 2 BLEU。
Jun, 2019
本文提出一种双重迭代领域自适应框架,通过多层反向翻译知识传输来提高公共领域的翻译知识的提取效果,并通过将这种转移策略应用于多个不同相似度的领域进行了验证。该框架在中英文和英德文翻译任务中取得了令人满意的实验结果。
Dec, 2019
本文讨论了如何在多领域和多语言神经机器翻译 (MDML-NMT) 中跨语言传输领域信息,以提高零样本翻译性能和帮助域缺失的多领域 NMT 的泛化。通过组合多语言和多领域 NMT 及添加编码器目标语言标签等有效策略,实现了学习到有针对性的表示和提高性能的目的。
Oct, 2022
本文提出了一种神经机器翻译方法,通过将文本领域视为不同的语言并使用多语言 NMT 方法创建多领域翻译系统,从而实现在单个模型中支持多个领域,我们的方法在翻译质量上有显著提高。同时探究了预先指定文本领域的必要性,发现预先指定领域是必须的,但即使未知也可以达到相当高的翻译质量。
May, 2018
本文研究了机器翻译模型在未知领域中的性能表现,发现在未知领域中,统计机器翻译(SMT)和神经机器翻译(NMT)系统存在不同的问题:SMT 系统通常足够但不流利,而 NMT 系统流利但不足够。本文发现,NMT 系统出现的 “幻觉” 现象是造成低域稳健性的主要原因,研究并比较了有关提高 NMT 系统稳健性的方法,实验结果表明,这些方法能够稍微提高 NMT 系统翻译的充分性,但对流畅性的提高较小。
Nov, 2019
本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言 BERT 进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在 COVID-19 疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。
Sep, 2021
本研究探讨了不同的训练方法对用于医学数据的波兰 - 英语机器翻译系统的影响,使用欧洲药品管理局平行文本语料库作为神经和统计网络翻译系统训练的基础,并对主要机器翻译评估指标进行了分析。该研究的重点是比较和实施实时医学翻译器。
Sep, 2015