本概念论文介绍了可解释机器翻译指标的关键属性和目标,并提供了最新的基于生成模型的可解释性指标技术综合。同时,我们展望了下一代技术包括自然语言解释,并希望本文能够帮助促进和指导未来可解释评估指标的研究,同时有助于更好、更透明的机器翻译系统。
Jun, 2023
本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法,通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性,提出了未来解释性评估指标的发展方向。
Mar, 2022
本文研究了神经度量与传统度量方法在评估机器翻译中的差异,并开发了多种神经可解释性方法来解释这些度量方法,并证明这些方法能够有效地分析翻译错误,促进未来的研究。
May, 2023
本研究提出了一种基于神经机器翻译模型预测行为的衡量方法,以衡量解释方法的准确度,并在六个标准翻译任务上量化地评估了几种解释方法。
May, 2020
研究透明度如何为机器人和人工智能提供自然语言解释,并评估自然语言生成方法的相关度量来生成这些解释,发现基于嵌入的自动自然语言生成评估方法具有更高的相关性,这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。
Mar, 2021
本文研究了基于 BERT 的评估指标在文本生成上的效果。通过使用一种简单的回归全局可解释性技术,将指标分解成了语言要素,包括语义、句法、形态和词汇重叠。研究表明,不同的评估指标在一定程度上对所有方面都有所捕捉,但它们都非常敏感于词汇重叠,正如 BLEU 和 ROUGE 所做的那样。这揭示了这些新提出的指标的限制,在敌对测试场景下也得到了证实。
Oct, 2021
本文研究了自动机器翻译度量在句子级别(段落级别评估)中区分好的翻译和坏的翻译的可靠性,并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务(对话状态跟踪,问题回答和语义分析)上评估了最广泛使用的 MT 度量(chrF,COMET,BERTScore 等)的段落级别性能。我们的实验表明,所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现,神经度量提供的分数大多数不是可解释的,因为其值域未定义。我们的分析表明,将来的 MT 指标应该被设计成产生错误标签而不是得分,以便于外在评估。
Dec, 2022
本文探讨了如何提高复杂机器学习系统的可解释性,通过介绍采用基于诚实度的指标的局部元解释技术,给出了一个可行的解决方案。
本文介绍了一种基于神经文本分类器的方法,将自然语言处理中翻译模型的自动化评估与人类评估相结合,并揭示人机差异,其中包含翻译质量和人工智能的深入讨论。
Mar, 2019
机器翻译中的一个常见问题是某些单词的翻译可能由于不同的文化背景导致目标语言受众难以理解。本研究探索从平行语料库中提取示例解释的技术,通过半自动的方法能够从大规模平行语料库中提取这些解释,为创建解释数据集提供了重要的自动化步骤。同时,通过实验证明该技术在三种语言对中均表现出鲁棒性。
Sep, 2023