TeCS:机器翻译时态一致性的数据集和基准
本研究基于一个手动设计的语言测试套件,分析了 16 种 MT 系统在德 - 英翻译中的性能表现,可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。
Oct, 2019
We created a benchmark data set called WeTS, which includes human-annotated golden corpus and synthetic corpus to improve the performance of Translation Suggestion (TS) for post editing after machine translation (MT). Our Transformer-based model achieves State-Of-The-Art (SOTA) results on four translation directions: English-to-German, German-to-English, Chinese-to-English and English-to-Chinese.
Oct, 2021
介绍了一个跨越 146 种语言对的对比挑战集 ACES,以发现度量标准是否能够识别 68 种翻译准确性错误,并通过对 WMT 2022 和 2023 度量标准共享任务中的 50 个度量标准进行基准测试,评估其渐进性能和对各种语言现象的敏感性。结果显示,不同的度量标准家族在不同的现象上存在困难,并且基于大型语言模型的方法的可靠性表现不佳。扩展了 ACES 以包括错误跨度注释,称为 SPAN-ACES,并使用该数据集评估基于跨度的错误度量,结果表明这些度量标准还需要较大改进。最后,提供了构建更好的机器翻译度量标准的一些建议,包括专注于错误标签而非分数,融合多个度量标准,设计明确专注于源句的策略,专注于语义内容,并选择适合的基本模型来进行表示。
Jan, 2024
本文介绍了一种新的机器翻译基准,为超过 500 种语言的数千种语言对提供了训练和测试数据,并提供了从该集合创建最先进的翻译模型的工具,旨在促进开放翻译工具和具有更广泛语言覆盖范围的模型的发展。
Oct, 2020
本研究描述了一系列双语英语 - 法语和英语 - 德语平行语料库,其中翻译方向经过准确可靠的注释。这些语料库多样化,包括议会议事录、文学作品、TED 演讲的抄录和政治评论。它们将对翻译和机器翻译的语言研究和应用具有重大意义,特别是在翻译 ese 识别方面,这是近年来越来越受到关注的研究方向。为了验证语料库的质量和可靠性,我们复制了先前在翻译 ese 的监督和无监督识别方面的结果,并将实验进一步扩展到其他数据集和语言。
Sep, 2015
使用 ACES 挑战集评估各种机器翻译评估指标,分析评估结果并提出了开发者的一些共同建议,包括组合不同的度量,发展更多强调从源头到引用的度量,并明确建模多语言表达的更多信息。
Oct, 2022
提出一种新的指标 XSTS,用于语义等效性评估,以及一种跨语言校准方法,旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证,证明了其有效性。
May, 2022
使用超级平行语料库,我们提出了一种分析低资源语言的分析方法 SuperPivot,该方法在对语态的跨语言分析中表现良好,并对 1000 多种语言进行了分析
Apr, 2017
该论文介绍了一个名为 XTREME 的跨语言多任务基准测试,它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力,研究表明,跨语言模型在句法和句子检索任务上的性能仍有相当大的差距,该基准测试旨在促进跨语言学习方法的研究。
Mar, 2020