TeCS：机器翻译时态一致性的数据集和基准

ACLMay, 2023

TeCS：机器翻译时态一致性的数据集和基准

TeCS: A Dataset and Benchmark for Tense Consistency of Machine Translation

Yiming Ai, Zhiwei He, Kai Yu, Rui Wang

TL;DR本研究介绍了一种包含 552 个法语 - 英语表述的平行时态测试集，以及相应的时态预测准确度基准，研究者可以通过测试集和基准第一次测量机器翻译系统的时态一致性表现。

Abstract

tense inconsistency frequently occurs in machine translation. However, there are few criteria to assess the model's mastery of tense prediction

machine translation tense inconsistency tense prediction test set benchmark

发现论文，激发创造

CODET: 机器翻译方言对比评估基准

通过发布一个对比方言基准数据集，我们量化展示了大型 NMT 模型在有效翻译方言变体时面临的挑战。

May, 2023

基于测试套件的德英机器翻译的细粒度评估

本研究基于一个手动设计的语言测试套件，分析了 16 种 MT 系统在德 - 英翻译中的性能表现，可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。

Oct, 2019

WeTS: 一个翻译建议的基准测试

We created a benchmark data set called WeTS, which includes human-annotated golden corpus and synthetic corpus to improve the performance of Translation Suggestion (TS) for post editing after machine translation (MT). Our Transformer-based model achieves State-Of-The-Art (SOTA) results on four translation directions: English-to-German, German-to-English, Chinese-to-English and English-to-Chinese.

Oct, 2021

机器翻译元评估通过翻译准确度挑战集

介绍了一个跨越 146 种语言对的对比挑战集 ACES，以发现度量标准是否能够识别 68 种翻译准确性错误，并通过对 WMT 2022 和 2023 度量标准共享任务中的 50 个度量标准进行基准测试，评估其渐进性能和对各种语言现象的敏感性。结果显示，不同的度量标准家族在不同的现象上存在困难，并且基于大型语言模型的方法的可靠性表现不佳。扩展了 ACES 以包括错误跨度注释，称为 SPAN-ACES，并使用该数据集评估基于跨度的错误度量，结果表明这些度量标准还需要较大改进。最后，提供了构建更好的机器翻译度量标准的一些建议，包括专注于错误标签而非分数，融合多个度量标准，设计明确专注于源句的策略，专注于语义内容，并选择适合的基本模型来进行表示。

Jan, 2024

Tatoeba 翻译挑战：低资源和多语言 MT 的现实数据集

本文介绍了一种新的机器翻译基准，为超过 500 种语言的数千种语言对提供了训练和测试数据，并提供了从该集合创建最先进的翻译模型的工具，旨在促进开放翻译工具和具有更广泛语言覆盖范围的模型的发展。

Oct, 2020

一个平行的翻译语料库

本研究描述了一系列双语英语 - 法语和英语 - 德语平行语料库，其中翻译方向经过准确可靠的注释。这些语料库多样化，包括议会议事录、文学作品、TED 演讲的抄录和政治评论。它们将对翻译和机器翻译的语言研究和应用具有重大意义，特别是在翻译 ese 识别方面，这是近年来越来越受到关注的研究方向。为了验证语料库的质量和可靠性，我们复制了先前在翻译 ese 的监督和无监督识别方面的结果，并将实验进一步扩展到其他数据集和语言。

Sep, 2015

ACES: 机器翻译指标评估的翻译准确性挑战集

使用 ACES 挑战集评估各种机器翻译评估指标，分析评估结果并提出了开发者的一些共同建议，包括组合不同的度量，发展更多强调从源头到引用的度量，并明确建模多语言表达的更多信息。

Oct, 2022

不同语言配对机器翻译的一致人工评估

提出一种新的指标 XSTS，用于语义等效性评估，以及一种跨语言校准方法，旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证，证明了其有效性。

May, 2022

过去，现在，未来：1000 种语言时态类型的计算机研究

使用超级平行语料库，我们提出了一种分析低资源语言的分析方法 SuperPivot，该方法在对语态的跨语言分析中表现良好，并对 1000 多种语言进行了分析

Apr, 2017

XTREME: 用于评估跨语言通用化的大规模多语言多任务基准数据集

该论文介绍了一个名为 XTREME 的跨语言多任务基准测试，它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力，研究表明，跨语言模型在句法和句子检索任务上的性能仍有相当大的差距，该基准测试旨在促进跨语言学习方法的研究。

Mar, 2020