机器翻译中基于行为测试的通用错误诊断

EMNLPOct, 2023

机器翻译中基于行为测试的通用错误诊断

Towards General Error Diagnosis via Behavioral Testing in Machine Translation

Junjie Wu, Lemao Liu, Dit-Yan Yeung

TL;DR本文提出了一种新的基于双语翻译对生成行为测试框架（BTPGBT），通过该框架对机器翻译系统进行行为测试，能够全面准确地诊断常见错误，进而得出一些有洞察力的发现。

Abstract

behavioral testing offers a crucial means of diagnosing linguistic errors and assessing capabilities of NLP models. However, applying behavioral testing to machine translation (MT) systems is challenging as it ge

behavioral testing machine translation systems diagnosing general errors bilingual translation pair generation based behavior testing framework comprehensive and accurate behavioral testing results

发现论文，激发创造

自动化行为测试在机器翻译中的应用

利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为，提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法，并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。

Sep, 2023

1、2、3 般容易：数字翻译的 NMT 系统行为测试

本文研究了神经机器翻译系统对数字文本的健壮性，并且通过行为测试设计有效的示例来揭示系统的问题。发现数字误译是一般问题。最后，讨论了缓解数字误译的策略。

Jul, 2021

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018

字符级神经机器翻译的语法性如何？通过对比翻译对评估机器翻译质量

通过对神经机器翻译实现对特定语言现象的质量评估，我们提出了一种新方法并给出了包含 97000 对用于 WMT 英语 -> 德语翻译任务的对照翻译数据集 LingEval97，对字符级别和字节对编码（BPE）分割模型的实验结果显示，前者在翻译转写方面表现更好，但在形态句法协议和翻译非连续的意义单元方面表现较差。

Dec, 2016

来自非母语者的文本的神经机器翻译

本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性，同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。

Aug, 2018

利用机器翻译对提高语法错误校正的效果

提出了一种新颖的数据合成方法，以生成多样的句子对，用于改善语法错误纠正，该方法基于两个不同质量（即较差和较好）的机器翻译模型对。实验结果表明，我们的方法是有效的，可以与其他合成数据源相结合，以产生进一步的改进。

Nov, 2019

使用类型学属性增强自然语言处理模型的跨语言行为测试

本文提出了 M2C，这是一种对自然语言处理模型进行语言特征行为测试的框架，并评估了 12 种类型不同的语言在不同特征测试下的表现，结果发现 NLP 模型在英语上的表现较好，但在斯瓦希里语等语言的某些特殊语言特征测试上表现不佳，这启示我们需要发展解决这些缺陷的模型。

Jul, 2023

大型语言模型在行为驱动开发验收测试制定中的综合评估和见解

提出一种使用大型语言模型来增强 BDD 实践的新方法，通过零样本和少样本提示评估 GPT-3.5、GPT-4 等 LLMs 的性能，旨在自动生成无错误的 BDD 验收测试，强调该方法对于支持协作 BDD 流程和未来自动化 BDD 验收测试生成的研究具有潜力。

Mar, 2024

基于测试套件的德英机器翻译的细粒度评估

本研究基于一个手动设计的语言测试套件，分析了 16 种 MT 系统在德 - 英翻译中的性能表现，可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。

Oct, 2019

BiVert: 双向词汇评估机器翻译关系

神经机器翻译在近年来取得了快速的进展，我们提出了一种双向语义评估方法，通过计算源文本与翻译的语义距离，实现了在同一语言层面上的句子比较，该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性，同时提出了一种新的多语言方法来对 MT 系统进行排序，无需平行语料库。

Mar, 2024