评估神经机器翻译的解释方法
本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法,通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性,提出了未来解释性评估指标的发展方向。
Mar, 2022
本文研究了神经度量与传统度量方法在评估机器翻译中的差异,并开发了多种神经可解释性方法来解释这些度量方法,并证明这些方法能够有效地分析翻译错误,促进未来的研究。
May, 2023
本概念论文介绍了可解释机器翻译指标的关键属性和目标,并提供了最新的基于生成模型的可解释性指标技术综合。同时,我们展望了下一代技术包括自然语言解释,并希望本文能够帮助促进和指导未来可解释评估指标的研究,同时有助于更好、更透明的机器翻译系统。
Jun, 2023
本文介绍了一种基于多词表达式的人机协作评估度量方法,旨在评估机器翻译系统中多词表达式的准确性和语义等价性,以此作为评估机器翻译系统的指标。
Nov, 2022
本文介绍了一种基于神经文本分类器的方法,将自然语言处理中翻译模型的自动化评估与人类评估相结合,并揭示人机差异,其中包含翻译质量和人工智能的深入讨论。
Mar, 2019
研究透明度如何为机器人和人工智能提供自然语言解释,并评估自然语言生成方法的相关度量来生成这些解释,发现基于嵌入的自动自然语言生成评估方法具有更高的相关性,这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。
Mar, 2021
本文研究了自动机器翻译度量在句子级别(段落级别评估)中区分好的翻译和坏的翻译的可靠性,并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务(对话状态跟踪,问题回答和语义分析)上评估了最广泛使用的 MT 度量(chrF,COMET,BERTScore 等)的段落级别性能。我们的实验表明,所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现,神经度量提供的分数大多数不是可解释的,因为其值域未定义。我们的分析表明,将来的 MT 指标应该被设计成产生错误标签而不是得分,以便于外在评估。
Dec, 2022
本研究提出了一种新的神经机器翻译 (NMT) 模型评估协议,该协议基于模型的排名能力定义模型错误,并提出了两种近似方法,以应对指数级的假设空间,并将其应用于各种 NMT 基准和模型架构,揭示了模型的排名问题,评估模型错误与搜索算法的相关性。
Jun, 2021