BriefGPT.xyz
Ask
alpha
关键词
neural-based metrics
搜索结果 - 2
走向多参考时代 -- 解决自然语言生成评估中的数据泄漏和参考多样性受限问题
N-gram 匹配评估指标,如 BLEU 和 chrF,在各种自然语言生成(NLG)任务中被广泛使用。然而,最近的研究发现,这些基于匹配的指标与人类评估之间存在较弱的相关性,尤其与 BLEURT 等基于神经网络的指标相比。在本文中,我们假设
→
PDF
a year ago
EMNLP
不确定性感知的机器翻译评估
本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法,并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法,得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验,验证了该方
→
PDF
3 years ago
Prev
Next