阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

Oct, 2022

阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

Alibaba-Translate China's Submission for WMT 2022 Quality Estimation Shared Task

Keqin Bao, Yu Wan, Dayiheng Liu, Baosong Yang, Wenqiang Lei...

TL;DR本研究使用 UniTE 框架，通过预训练语言模型的三种输入格式进行训练，并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型（XLM-R 和 InfoXLM）的预测进行集成，取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现，表明了相对强的性能。

Abstract

In this paper, we present our submission to the sentence-level MQM benchmark at quality estimation Shared Task, named unite (Unified Translation Evaluation). Specifically, our systems employ the framework of

quality estimation unite pre-trained language model multidimensional quality metrics ensemble

发现论文，激发创造

阿里巴巴 - 翻译中国提交 WMT 2022 度量共享任务

该论文基于 UNITE（统一翻译评估）的核心理念，将源 - 参考 - 结合评估场景统一为一个模型，在使用不同的预训练模型背骨和不同的集成策略时，使用过去 WMT 比赛的直接评估和多维质量度量数据完成了模型预训练和微调。

Oct, 2022

UniTE: 统一的翻译评估

本文提出了 UniTE 框架，通过引入单调区域注意力和统一预训练策略，该框架具有处理机器翻译中三个质量评估任务（即只有参考文献、只有源语言和源 - 参考文献组合）的能力，并在 WMT 2019 Metrics 和 WMT 2020 Quality Estimation 基准测试中表现出显著的泛化能力。

Apr, 2022

NJUNLP 参加 WMT2023 质量评估共享任务

我们介绍了 NJUNLP 团队在 WMT 2023 质量估计（QE）共享任务中的提交。我们的团队针对英德语言对，对两个子任务进行了预测:（i）句子和单词级质量预测；（ii）细粒度错误跨度检测。今年，我们在 NJUQE 框架上进一步探索了基于伪数据方法的 QE。我们使用 WMT 翻译任务的平行数据生成伪 MQM 数据。我们在伪 QE 数据上对 XLMR 大模型进行预训练，然后在真实 QE 数据上进行微调。在这两个阶段，我们同时学习句子级分数和单词级标签。通过实验证明，我们进行了实验以找到提高性能的关键超参数。在技术上，我们提出了一种简单的方法，将单词级输出转换为细粒度错误跨度结果。总的来说，我们的模型在英德语言对的单词级和细粒度错误跨度检测子任务中取得了最佳结果，并且差距明显。

Sep, 2023

Unbabel 参加 WMT19 翻译质量评估共享任务

Unbabel 团队在 WMT 2019 共享任务中，利用 OpenKiwi 框架及 BERT 和 XLM 预训练模型进行传输学习，提出了用于词和句级别预测的新集成技术，并将单词标签转换为文档级别预测，取得了所有语言对和轨迹上显著的最佳结果。

Jul, 2019

2023 年 SurreyAI 质量评估共享任务提交

本研究描述了 SurreyAI 团队在 WMT23 的句子级直接评估共享任务中采用的方法，该方法在 TransQuest 框架的基础上利用自编码器预训练语言模型构建 MonoTransQuest 架构，并使用单一和集合设置。通过使用斯皮尔曼和皮尔逊相关系数评估机器预测质量分数与人工判断之间的关系，对 5 个语言对（英古吉拉特语、英印地语、英马拉地语、英泰米尔语和英泰卢固语）进行了评估，其中 MonoTQ-InfoXLM-large 方法在大多数语言对中显著改进了基线，并成为一种强大的策略。

Dec, 2023

多维机器翻译评估：韩语模型评估和资源

通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Mar, 2024

Adam Mickiewicz University 在 WMT 2022 中的：NER 辅助和质量感知的神经机器翻译

本文提出了 Adam Mickiewicz 大学对于 WMT 2022 通用机器翻译任务的限制性跟踪的提交结果，使用基于 transformer 架构的加权集成模型进行双向乌克兰语 <-> 捷克语翻译，使用源因子利用输入的命名实体信息，在训练数据之外使用噪声后向传递技术进行数据增强。使用 noisy back-translation 技术增加训练语料库。模型集成是由 4 个模型加权结合而成，并针对多句翻译使用了文档级模型进行训练，最后使用现有的质量估计模型和最小贝叶斯风险解码将 n-best 列表进行重排序，使得最佳假设能够根据 COMET 评估度量标准被选择。根据自动评估结果，在两个翻译方向上我们的系统排名第一。

Sep, 2022

QUST 团队参加 SemEval-2024 任务 8：检测人工智能生成文本的单语和多语方法的综合研究

本文介绍了 QUST 团队参与 SemEval 2024 任务 8 的研究，通过数据增强和清洗来提高模型训练效率和准确性，评估了传统的深度学习方法、多尺度正负未标记框架（MPU）、微调、适配器和集成方法，并选择了在单语任务中准确性最高的模型，在子任务 A 和 B 中进行评估。最终模型构建采用了将微调与 MPU 相结合的堆叠集成方法。我们的系统在多语言设置下的子任务 A 官方测试集中获得第八名（准确性得分第 13 名），我们在此链接发布了系统代码。

Feb, 2024

TransQuest 在 WMT2020 上的句子级直接评估

本文介绍了 TransQuest 团队在 WMT2020 的句子级直接评估任务中的参与，提出了一种基于跨语言 transformer 的简单 QE 框架，并使用它来实现和评估两个不同的神经架构。该方法取得了超越基线 OpenKiwi 的最新结果，并通过进行集成和数据增强进行了进一步优化。根据 WMT2020 的官方结果，我们的方法在所有语言配对中均获胜。

Oct, 2020

上海交通大学 - 国立信息学研究所的 WMT20 新闻翻译任务所使用的监督式和无监督式神经机器翻译系统

本文介绍了我们在 WMT2020 机器翻译共享任务中的参与情况和采用的多项神经机器翻译技术，在英汉、波兰英语和德国上索布里亚语等四个方向中，我们获得了第一名的好成绩。

Oct, 2020