BMX: 提升机器翻译度量的可解释性

Dec, 2022

BMX: 提升机器翻译度量的可解释性

BMX: Boosting Machine Translation Metrics with Explainability

Christoph Leiter, Hoa Nguyen, Steffen Eger

TL;DR研究使用解释性评分来提高机器翻译评估指标，并经过多个数据集、指标和解释技术的广泛评估和分析，发现某些配置可靠地提高原指标与人类判断的相关性。

Abstract

State-of-the-art machine translation evaluation metrics are based on black-box language models. Hence, recent works consider their explainability

machine translation evaluation metrics explainability word-level scores correlation

发现论文，激发创造

机器翻译可解释评估指标的研究

本概念论文介绍了可解释机器翻译指标的关键属性和目标，并提供了最新的基于生成模型的可解释性指标技术综合。同时，我们展望了下一代技术包括自然语言解释，并希望本文能够帮助促进和指导未来可解释评估指标的研究，同时有助于更好、更透明的机器翻译系统。

Jun, 2023

面向自然语言生成的可解释评估度量

本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法，通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性，提出了未来解释性评估指标的发展方向。

Mar, 2022

内部故事：迈向更好理解机器翻译神经评估指标

本文研究了神经度量与传统度量方法在评估机器翻译中的差异，并开发了多种神经可解释性方法来解释这些度量方法，并证明这些方法能够有效地分析翻译错误，促进未来的研究。

May, 2023

评估神经机器翻译的解释方法

本研究提出了一种基于神经机器翻译模型预测行为的衡量方法，以衡量解释方法的准确度，并在六个标准翻译任务上量化地评估了几种解释方法。

May, 2020

自然语言解释评估的自动度量研究

研究透明度如何为机器人和人工智能提供自然语言解释，并评估自然语言生成方法的相关度量来生成这些解释，发现基于嵌入的自动自然语言生成评估方法具有更高的相关性，这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。

Mar, 2021

通过将语言要素分解来解释基于 BERT 的评估度量的全球可解释性

本文研究了基于 BERT 的评估指标在文本生成上的效果。通过使用一种简单的回归全局可解释性技术，将指标分解成了语言要素，包括语义、句法、形态和词汇重叠。研究表明，不同的评估指标在一定程度上对所有方面都有所捕捉，但它们都非常敏感于词汇重叠，正如 BLEU 和 ROUGE 所做的那样。这揭示了这些新提出的指标的限制，在敌对测试场景下也得到了证实。

Oct, 2021

机器翻译指标外部评估

本文研究了自动机器翻译度量在句子级别（段落级别评估）中区分好的翻译和坏的翻译的可靠性，并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务（对话状态跟踪，问题回答和语义分析）上评估了最广泛使用的 MT 度量（chrF，COMET，BERTScore 等）的段落级别性能。我们的实验表明，所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现，神经度量提供的分数大多数不是可解释的，因为其值域未定义。我们的分析表明，将来的 MT 指标应该被设计成产生错误标签而不是得分，以便于外在评估。

Dec, 2022

机器学习模型本地可解释性的真实元解释

本文探讨了如何提高复杂机器学习系统的可解释性，通过介绍采用基于诚实度的指标的局部元解释技术，给出了一个可行的解决方案。

Dec, 2022

训练，分类，解释：学习诊断翻译模型

本文介绍了一种基于神经文本分类器的方法，将自然语言处理中翻译模型的自动化评估与人类评估相结合，并揭示人机差异，其中包含翻译质量和人工智能的深入讨论。

Mar, 2019

机器翻译的针对特定受众的解释

机器翻译中的一个常见问题是某些单词的翻译可能由于不同的文化背景导致目标语言受众难以理解。本研究探索从平行语料库中提取示例解释的技术，通过半自动的方法能够从大规模平行语料库中提取这些解释，为创建解释数据集提供了重要的自动化步骤。同时，通过实验证明该技术在三种语言对中均表现出鲁棒性。

Sep, 2023