基于神经度量的最小贝叶斯风险解码:高质量而非高模型概率
本论文探讨神经机器翻译中的偏差以及在域偏移和样本干扰下的弱点,并找到应用最小贝叶斯风险解码对抗这些问题的方案。结果表明,这个方法虽然仍有长度和频率偏差,但同样增加了模型的鲁棒性,对样本干扰和域偏移具有更好的适应能力
May, 2021
本研究分析了一种比 beam search 更有效的基于最小贝叶斯风险译码的决策规则,并设计了基于搜索和估计效用的成本分离近似算法,探讨了以模式为导向的策略对译文翻译的效果,实验证明这种方法在三种语言对中均能提高翻译质量。
Aug, 2021
本研究提出了一种基于源的 MBR 解码方法(sMBR),利用由后向翻译生成的合成源作为 “支持假设”,以及无参考质量估计度量作为效用函数,实现了仅利用源进行 MBR 解码的首次工作。实验证明,sMBR 明显优于 QE 重排并且与标准 MBR 解码相竞争。此外,与 MBR 相比,sMBR 较少调用效用函数的次数。结果表明,sMBR 是一种有潜力提高质量的 NMT 解码方法。
Jun, 2024
本研究提出使用最小贝叶斯风险编解码技术 (MBR) 来消除基于 beam search 算法的模型自信度导致的输出错误,并使用 GPU 批量计算贝叶斯风险值以加速解码,并在机器翻译中验证后期 MBR 解码的优越性。
Apr, 2017
该研究提出了一种基于 semantic-based similarity 和 truncating list 的在机器翻译中提高翻译质量的方法 Regularized MBR reranking framework (RMBR)。
Mar, 2022
在文本生成任务中,我们提出了基于模型的 MBR(MBMBR)方法,它使用模型概率本身作为概率分布的估计值,通过理论和实验证明模型估计优于蒙特卡洛估计,并且在多个文本生成任务中,包括编码 - 解码模型和大型语言模型中,MBMBR 表现优于 MBR。
Nov, 2023
在神经机器翻译模型中,提出通过自我评估来训练模型以估计其自身输出的质量,并在解码过程中使用该质量估计来指导生成过程,从而显著提高翻译质量。在最小贝叶斯风险解码中使用内部质量估计来剪枝,不仅可以进一步提高翻译质量,还可以将推理速度降低两个数量级。
Oct, 2023
本文研究了最小贝叶斯风险(MBR)解码在自我改进机器翻译(MT)中的应用,特别是针对领域适应和资源匮乏的语言。通过使用 COMET 作为 MBR 效用度量,我们实现了在 MBR 解码的正向翻译上微调模型的自我改进过程,旨在实现与人类偏好更为一致的翻译重新排名。该文探讨了这种方法的迭代应用和可能需要语种特定 MBR 效用度量的潜在需求。结果显示,在所有考察的语言对中,包括领域适应模型的成功应用和对资源匮乏环境的泛化,都显著提高了翻译质量。这突显了 COMET 指导的 MBR 在各种场景下实现高效 MT 自我改进的潜力。
May, 2024
本论文探讨神经测量在机器翻译评估中的作用,提出最小贝叶斯风险解码策略,以消除评估的偏见,发现机器翻译中存在数字和命名实体的偏见,提供代码和数据以便未来的研究。
Feb, 2022