使用目标端形态信息优化基于字符的神经机器翻译解码
通过多任务学习范式,利用三个以摘要为重点的任务训练编码器,提出了一种新的改进代码摘要的方法,这三个任务包括单向语言建模(ULM)、掩码语言建模(MLM)和动作词预测(AWP)。实验证明,我们的方法 ESALE 在四个数据集上的表现明显优于基线模型,包括 BLEU、METEOR 和 ROUGE-L 三个广泛使用的指标。
Jul, 2024
本文研究使用大规模预训练语言模型(PLMs)在高资源语言中用于开放领域对话系统的语言可移植性策略,主要以法语作为目标低资源语言,通过不同方法评估在目标语言中使用 PLMs 的性能,包括神经机器翻译和 MAD-X Adapter 架构的应用。
Jul, 2024
神经机器翻译模型在其训练数据分布中往往会延续性别偏见。本文通过详细分析英语到德语的刻板职业翻译以及巴斯克语到西班牙语的非信息上下文翻译,检验了上下文感知模型对减轻此类偏见的作用。研究结果表明,虽然上下文感知模型可以显著增强女性术语的翻译准确性,但依然可能保持或放大性别偏见。这些结果凸显了神经机器翻译中对偏见减轻需要更精细方法的需求。
Jun, 2024
本研究提出了一种基于源的 MBR 解码方法(sMBR),利用由后向翻译生成的合成源作为 “支持假设”,以及无参考质量估计度量作为效用函数,实现了仅利用源进行 MBR 解码的首次工作。实验证明,sMBR 明显优于 QE 重排并且与标准 MBR 解码相竞争。此外,与 MBR 相比,sMBR 较少调用效用函数的次数。结果表明,sMBR 是一种有潜力提高质量的 NMT 解码方法。
Jun, 2024
本文介绍了 M3T,这是一个新颖的基准数据集,旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现,并解决了现实世界应用中丰富文本布局所带来的挑战。
Jun, 2024
确定性可逆数据增强(DRDA)是一种简单但有效的数据增强方法,用于神经机器翻译,通过采用确定性分段和可逆操作生成多粒度子词表示,并通过多视角技术将它们拉近,无需额外的语料库或模型变更,DRDA 在几个翻译任务中优于强基线模型(Transformer),在嘈杂、资源匮乏和跨领域数据集中表现出良好的鲁棒性,达到多达 4.3 BLEU 增益。
Jun, 2024
通过测量内在消除偏见的方法对神经机器翻译模型的外在偏见的影响,我们发现选择消除偏见的嵌入、词和子词符号的不匹配以及对不同目标语言的影响是影响下游性能和消除偏见成功的三个挑战和不匹配。
Jun, 2024
我们提出了一种新的数据修剪技术:Checkpoints Across Time (CAT),通过利用早期模型训练动态来识别对模型性能最相关的数据点,实现了在减少 50% 的训练数据的同时,与使用完整数据集的性能相当,且优于其他数据修剪技术。
May, 2024
神经机器翻译 (NMT) 在过去几年取得了显著进展,但仍存在两个具有挑战性的问题,即欠翻译和过翻译。本文从解码目标的角度深入分析了 NMT 中欠翻译的根本原因,并提出了使用预测句子结束标记的置信度作为欠翻译检测器的方法,通过增强基于置信度的惩罚来纠正欠翻译的候选翻译,实验证明该方法可以准确地检测和纠正欠翻译的输出,对其他正确翻译的影响较小。
May, 2024
介绍了一个关于机器翻译关键错误的真实数据集,指出了常见机器翻译存在的伦理和安全问题以及目前常用质量评估指标无法识别关键错误的重要性。
May, 2024