利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为,提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法,并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。
Sep, 2023
本文研究了神经机器翻译系统对数字文本的健壮性,并且通过行为测试设计有效的示例来揭示系统的问题。发现数字误译是一般问题。最后,讨论了缓解数字误译的策略。
Jul, 2021
提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架,能够对 WMT 的翻译结果进行质量评估,并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。
Jul, 2018
通过对神经机器翻译实现对特定语言现象的质量评估,我们提出了一种新方法并给出了包含 97000 对用于 WMT 英语 -> 德语翻译任务的对照翻译数据集 LingEval97,对字符级别和字节对编码(BPE)分割模型的实验结果显示,前者在翻译转写方面表现更好,但在形态句法协议和翻译非连续的意义单元方面表现较差。
Dec, 2016
本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性,同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。
Aug, 2018
提出了一种新颖的数据合成方法,以生成多样的句子对,用于改善语法错误纠正,该方法基于两个不同质量(即较差和较好)的机器翻译模型对。实验结果表明,我们的方法是有效的,可以与其他合成数据源相结合,以产生进一步的改进。
Nov, 2019
本文提出了 M2C,这是一种对自然语言处理模型进行语言特征行为测试的框架,并评估了 12 种类型不同的语言在不同特征测试下的表现,结果发现 NLP 模型在英语上的表现较好,但在斯瓦希里语等语言的某些特殊语言特征测试上表现不佳,这启示我们需要发展解决这些缺陷的模型。
Jul, 2023
提出一种使用大型语言模型来增强 BDD 实践的新方法,通过零样本和少样本提示评估 GPT-3.5、GPT-4 等 LLMs 的性能,旨在自动生成无错误的 BDD 验收测试,强调该方法对于支持协作 BDD 流程和未来自动化 BDD 验收测试生成的研究具有潜力。
Mar, 2024
本研究基于一个手动设计的语言测试套件,分析了 16 种 MT 系统在德 - 英翻译中的性能表现,可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。
Oct, 2019
神经机器翻译在近年来取得了快速的进展,我们提出了一种双向语义评估方法,通过计算源文本与翻译的语义距离,实现了在同一语言层面上的句子比较,该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性,同时提出了一种新的多语言方法来对 MT 系统进行排序,无需平行语料库。