神经机器翻译中最小贝叶斯风险解码的特性理解
本研究分析了一种比 beam search 更有效的基于最小贝叶斯风险译码的决策规则,并设计了基于搜索和估计效用的成本分离近似算法,探讨了以模式为导向的策略对译文翻译的效果,实验证明这种方法在三种语言对中均能提高翻译质量。
Aug, 2021
本研究提出使用最小贝叶斯风险编解码技术 (MBR) 来消除基于 beam search 算法的模型自信度导致的输出错误,并使用 GPU 批量计算贝叶斯风险值以加速解码,并在机器翻译中验证后期 MBR 解码的优越性。
Apr, 2017
本篇论文研究神经机器翻译,提出使用最小贝叶斯风险解码优化翻译质量度量作为一种替代推论策略来优化自动翻译质量度量,实验结果表明,使用 BLEURT 作为质量度量指标产生的质量比传统 Beam-search 输出更好。
Nov, 2021
在文本生成任务中,我们提出了基于模型的 MBR(MBMBR)方法,它使用模型概率本身作为概率分布的估计值,通过理论和实验证明模型估计优于蒙特卡洛估计,并且在多个文本生成任务中,包括编码 - 解码模型和大型语言模型中,MBMBR 表现优于 MBR。
Nov, 2023
该研究提出了一种基于 semantic-based similarity 和 truncating list 的在机器翻译中提高翻译质量的方法 Regularized MBR reranking framework (RMBR)。
Mar, 2022
本研究提出了一种基于源的 MBR 解码方法(sMBR),利用由后向翻译生成的合成源作为 “支持假设”,以及无参考质量估计度量作为效用函数,实现了仅利用源进行 MBR 解码的首次工作。实验证明,sMBR 明显优于 QE 重排并且与标准 MBR 解码相竞争。此外,与 MBR 相比,sMBR 较少调用效用函数的次数。结果表明,sMBR 是一种有潜力提高质量的 NMT 解码方法。
Jun, 2024
在最小贝叶斯风险解码中,通过逐渐增加样本数来估计效用,并使用基于自助法的抽样获得的置信度估计来剪除不太可能具有最高效用的假设,从而在准确性方面与标准 MBR 无显著差异的情况下,需要较少的样本并大幅减少效用函数调用次数。
Nov, 2023
本文研究了最小贝叶斯风险(MBR)解码在自我改进机器翻译(MT)中的应用,特别是针对领域适应和资源匮乏的语言。通过使用 COMET 作为 MBR 效用度量,我们实现了在 MBR 解码的正向翻译上微调模型的自我改进过程,旨在实现与人类偏好更为一致的翻译重新排名。该文探讨了这种方法的迭代应用和可能需要语种特定 MBR 效用度量的潜在需求。结果显示,在所有考察的语言对中,包括领域适应模型的成功应用和对资源匮乏环境的泛化,都显著提高了翻译质量。这突显了 COMET 指导的 MBR 在各种场景下实现高效 MT 自我改进的潜力。
May, 2024
最小贝叶斯风险(MBR)解码是一种选择机器学习系统输出的方法,不是基于最高概率的输出,而是基于多个候选项中具有最低风险(预期误差)的输出。本文首先介绍了该方法和最近的文献,证明了一些最近的方法可以被写成 MBR 的特例,为这些方法的性能提供了额外的理论依据,并给出了在 NLP 模型中应用 MBR 的理论和实证结果,包括该领域的未来方向的具体建议。
Oct, 2023
通过使用相关顺序减半算法来近似计算基于样本的最小贝叶斯风险目标,我们提出了一种不需要超参数调整的 AMBR 解码方法,该方法在机器翻译、文本摘要和图像字幕任务上与 CBP 方法相当。
Jan, 2024