Mar, 2024

上下文对聊天翻译评估是否有帮助?

TL;DR通过对自动度量、机器翻译聊天等领域进行元评估,我们发现引用自由度量相较于引用依赖度量滞后,尤其在评估英文以外的翻译质量时。我们研究了如何将对话上下文信息融入度量中,并发现将上下文信息与神经学习度量相结合有助于提高自由度量在无参考情景下与人类判断的相关性,以及在评估英文以外的翻译时的性能。最后,我们提出了一种新的评估度量方法 Context-MQM,并验证了添加上下文即使对基于大型语言模型(LLM)的评估度量也是有帮助的。