基于不确定性置信度评估的反向翻译优化
本论文介绍了一个在神经机器翻译中实现置信度估计的方法,通过让 NMT 模型向用户请求 “提示” 来确定置信度,进一步提出了利用置信度的标签平滑方法。实验结果表明,在真实世界的嘈杂和跨领域数据的情况下,该方法可以准确评估潜在的风险。
Mar, 2022
本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉,以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明,搜索功能表现出色,但模型往往在假设空间中分散了太多的概率质量。此外,我们还提出了评估模型校准的工具,并展示了如何轻松解决当前模型的一些缺陷。
Feb, 2018
本文提出了一种新的方式用于神经机器翻译的模型训练,通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中,本方法表现显著优于现有方法。
Oct, 2020
本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法,并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法,得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验,验证了该方法的性能,进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。
Sep, 2021
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。
Aug, 2018
探索概率方法来提高机器翻译质量评估,提供良好的置信度估计,并通过全后验预测分布进行评估。还展示了在不对称风险的情况下如何利用后验信息,从而捕捉翻译工作流程中的典型情况。
Jun, 2016
本文提出了一种基于不确定性采样的自训练方法,通过选择最具信息价值的单一语言句子来补充平行数据,以提高 NMT 的性能,在大规模数据集上进行实验证明了这种方法的有效性,并表明该方法能够提高翻译质量和预测低频单词。
Jun, 2021
利用自训练策略改进 Neural Machine Translation(NMT)模型,通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型,可提高低资源下的翻译品质,提高翻译模型的 BLEU 值。
Jun, 2020
本研究提出在跨熵优化的范畴中改进后向翻译,其涵盖包括从目标到源 NMT 模型中进行采样的更广泛的合成数据生成方案,并在 WMT 2018 德语 - 英语新闻翻译任务上验证了我们的陈述。
Jun, 2019
大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧,本文通过引入多语言置信度估计 (MlingConf) 对大语言模型进行全面调查,包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出,实验结果表明该跨语言置信度估计技术能显著提高置信度估计。
Feb, 2024