评估神经机器翻译的解释方法

ACLMay, 2020

Evaluating Explanation Methods for Neural Machine Translation

Jierui Li, Lemao Liu, Huayang Li, Guanlin Li, Guoping Huang...

TL;DR本研究提出了一种基于神经机器翻译模型预测行为的衡量方法，以衡量解释方法的准确度，并在六个标准翻译任务上量化地评估了几种解释方法。

Abstract

Recently many efforts have been devoted to interpreting the black-box NMT models, but little progress has been made on metrics to evaluate explanation methods. word alignment error rate can be used as such a metric that matches human understanding, however, it can not measure

black-box nmt models explanation methods word alignment error rate predictive behavior translation tasks

发现论文，激发创造

面向自然语言生成的可解释评估度量

本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法，通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性，提出了未来解释性评估指标的发展方向。

Mar, 2022

内部故事：迈向更好理解机器翻译神经评估指标

本文研究了神经度量与传统度量方法在评估机器翻译中的差异，并开发了多种神经可解释性方法来解释这些度量方法，并证明这些方法能够有效地分析翻译错误，促进未来的研究。

May, 2023

机器翻译可解释评估指标的研究

本概念论文介绍了可解释机器翻译指标的关键属性和目标，并提供了最新的基于生成模型的可解释性指标技术综合。同时，我们展望了下一代技术包括自然语言解释，并希望本文能够帮助促进和指导未来可解释评估指标的研究，同时有助于更好、更透明的机器翻译系统。

Jun, 2023

BMX: 提升机器翻译度量的可解释性

研究使用解释性评分来提高机器翻译评估指标，并经过多个数据集、指标和解释技术的广泛评估和分析，发现某些配置可靠地提高原指标与人类判断的相关性。

Dec, 2022

HilMeMe: 一种基于人机交互的机器翻译准确度度量方法，关注多词表达

本文介绍了一种基于多词表达式的人机协作评估度量方法，旨在评估机器翻译系统中多词表达式的准确性和语义等价性，以此作为评估机器翻译系统的指标。

Nov, 2022

训练，分类，解释：学习诊断翻译模型

本文介绍了一种基于神经文本分类器的方法，将自然语言处理中翻译模型的自动化评估与人类评估相结合，并揭示人机差异，其中包含翻译质量和人工智能的深入讨论。

Mar, 2019

自然语言解释评估的自动度量研究

研究透明度如何为机器人和人工智能提供自然语言解释，并评估自然语言生成方法的相关度量来生成这些解释，发现基于嵌入的自动自然语言生成评估方法具有更高的相关性，这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。

Mar, 2021

机器翻译指标外部评估

本文研究了自动机器翻译度量在句子级别（段落级别评估）中区分好的翻译和坏的翻译的可靠性，并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务（对话状态跟踪，问题回答和语义分析）上评估了最广泛使用的 MT 度量（chrF，COMET，BERTScore 等）的段落级别性能。我们的实验表明，所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现，神经度量提供的分数大多数不是可解释的，因为其值域未定义。我们的分析表明，将来的 MT 指标应该被设计成产生错误标签而不是得分，以便于外在评估。

Dec, 2022

挖掘神经机器翻译中的错误：从部分假设空间评估和理解模型错误

本研究提出了一种新的神经机器翻译 (NMT) 模型评估协议，该协议基于模型的排名能力定义模型错误，并提出了两种近似方法，以应对指数级的假设空间，并将其应用于各种 NMT 基准和模型架构，揭示了模型的排名问题，评估模型错误与搜索算法的相关性。

Jun, 2021

困难感知机器翻译评估

提出一种考虑翻译难度的机器翻译评估方法，结果显示在 WMT19 上表现出色。

Jul, 2021