指尖上的质量控制: 品质感知翻译模型
论文针对神经机器翻译 (NMT) 系统中出现的一些问题进行了研究,发现这些问题主要与最大后验概率推断 (MAP) 解码以及解码过程中使用的决策规则有关,而非 NMT 的统计假设或最大似然估计算法。作者倡导使用考虑翻译分布整体性的决策规则,证明了最小贝叶斯风险解码的近似方法具有良好的效果。
May, 2020
本论文探讨神经机器翻译中的偏差以及在域偏移和样本干扰下的弱点,并找到应用最小贝叶斯风险解码对抗这些问题的方案。结果表明,这个方法虽然仍有长度和频率偏差,但同样增加了模型的鲁棒性,对样本干扰和域偏移具有更好的适应能力
May, 2021
本研究分析了一种比beam search更有效的基于最小贝叶斯风险译码的决策规则,并设计了基于搜索和估计效用的成本分离近似算法,探讨了以模式为导向的策略对译文翻译的效果,实验证明这种方法在三种语言对中均能提高翻译质量。
Aug, 2021
本篇论文研究神经机器翻译,提出使用最小贝叶斯风险解码优化翻译质量度量作为一种替代推论策略来优化自动翻译质量度量,实验结果表明,使用BLEURT作为质量度量指标产生的质量比传统Beam-search输出更好。
Nov, 2021
该研究提出了一种基于semantic-based similarity和truncating list的在机器翻译中提高翻译质量的方法 Regularized MBR reranking framework(RMBR)。
Mar, 2022
机器翻译中心于神经机器翻译的MAP解码,本文提出基于近期普及的基于参考文本和无参考文本翻译质量评估研究成果,包括n-best重排序和最小贝叶斯风险解码等,实现了基于质量的神经机器翻译解码,经过多组数据集比较和人工评估,结果表明质量感知的神经机器翻译解码性能优于基于MAP的解码方法,且代码已公开。
May, 2022
本文提出了一种新的能力感知神经机器翻译方法,通过自估计器扩展传统神经机器翻译,使其具备翻译源句子和估计其能力的能力,在四项翻译任务上取得了卓越的表现,并显示出与人类质量判断的高相关性。
Nov, 2022
通过在推论阶段使用高效解码算法并在训练阶段提炼质量收益,提出了MBR(最小贝叶斯风险)微调和QE(质量评估)微调方法,通过使用自我训练模型和外部LLM(语言模型)作为教师模型,这些微调方法在自然语言生成(NLG)任务中达到了比人生成参考文献更好的结果,且能保持推论过程的高效性。
Sep, 2023
在机器翻译中,为解决生成高质量和多样化的翻译的挑战,本文采用Gibbs分布的能量函数,并通过Metropolis-Hastings算法从高密度区域生成多个样本,提供了一种简单有效的方法来避免过度依赖噪声质量估计的问题。实验结果表明,所提出的方法在多种语言对(英语↔德语、俄语)和两个强解码器单模型(Alma-7b、Tower-7b)中产生了高质量和多样化的输出。
May, 2024
本研究提出了一种基于源的MBR解码方法(sMBR),利用由后向翻译生成的合成源作为“支持假设”,以及无参考质量估计度量作为效用函数,实现了仅利用源进行MBR解码的首次工作。实验证明,sMBR明显优于QE重排并且与标准MBR解码相竞争。此外,与MBR相比,sMBR较少调用效用函数的次数。结果表明,sMBR是一种有潜力提高质量的NMT解码方法。
Jun, 2024