使用机械土耳其工人构建机器翻译评估数据集

ACLOct, 2014

使用机械土耳其工人构建机器翻译评估数据集

Using Mechanical Turk to Build Machine Translation Evaluation Sets

Michael Bloodgood, Chris Callison-Burch

TL;DR本文研究了使用 Amazon Mechanical Turk 来廉价的生产机器翻译测试集，实验表明，该方法产生的测试集与专业生产的测试集对于系统性能的结论基本一致。

Abstract

Building machine translation (MT) test sets is a relatively expensive task. As MT becomes increasingly desired for more and more language pairs and more and more domains, it becomes necessary to build test sets for each case. In this paper, we investigate using Amazon's Mechanical Turk (MTurk) to make MT test sets cheaply. We find that MTurk can be used to m

machine translation test sets amazon mechanical turk mt systems professional test sets system performance

发现论文，激发创造

使用 MTurk 评估开放式文本生成的风险

本文对目前 45 篇与开放式文本生成相关的论文进行了调查，并发现它们中绝大多数未报告有关 Amazon Mechanical Turk 任务的关键细节，从而影响了可重复性。本文还进行了故事评估实验，发现即使使用严格的资格筛选器，AMT 工作者（与教师不同）也无法区分模型生成的文本和人类生成的参考文本。研究表明，当 AMT 工人同时展示模型生成的输出和人类生成的参考文本时，工人的判断能力得到了提高，并为评估过程提供了深刻的洞察。

Sep, 2021

跨语种分类中机器翻译的再次研究

使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配，翻译 - 测试可以比之前假定的效果更好，从而对跨语言分类的多语言模型的支配提出了质疑，并促使更多关注基于机器翻译的基准线。

May, 2023

突厥语言机器翻译的大规模研究

本文是大规模实际应用机器翻译于突厥语系的案例研究，在高、低资源场景下使用平行语料库、双语基准和人工评估结果来识别瓶颈，并提供这些数据与模型的公开开放。

Sep, 2021

自动化行为测试在机器翻译中的应用

利用大型语言模型和行为测试的评估框架来检测机器翻译系统的行为，提出了一种通过针对不同场景生成多样的源句子、使用候选集进行验证的方法，并揭示使用准确率等传统度量指标难以察觉的重要差异和潜在错误。

Sep, 2023

机器翻译评估概述

自 20 世纪 50 年代以来，机器翻译 (MT) 已成为人工智能和开发的重要任务之一，并经历了几个不同阶段的发展，随着这些发展，评估方法在统计翻译和神经翻译研究中扮演着重要角色，该报告概述了评估方法的发展历程、研究方法分类和最新进展，并包括参考翻译的手动评估和自动评估方法。

Feb, 2022

评估土耳其语系多语言多向 NMT 技术

本研究通过对土耳其语系 22 种语言的大规模机器翻译系统的培训和评估，发现 MNMT 模型在领域外测试集中的表现优于几乎所有双语基线，并在单对下游任务的微调中也获得了巨大的性能提升。

Sep, 2021

基于测试套件的德英机器翻译的细粒度评估

本研究基于一个手动设计的语言测试套件，分析了 16 种 MT 系统在德 - 英翻译中的性能表现，可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。

Oct, 2019

不要排除掉单语言说话者：一种众包机器翻译数据的方法

本文提出了一种新的机器翻译数据集，利用 GIF 作为中介，从单语注释器中收集平行句子，从而降低了需要寻找、训练双语人员的成本，并经过内在和外在评估，发现使用 GIFs 收集的句子确实具有更高的质量。

Jun, 2021

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

机器翻译的质量期望

该论文旨在讨论机器翻译是如何被应用的，如何评估其输出，以及如何提高机器翻译的质量，特别是作为人类翻译的生产力增强工具，其中需要考虑翻译本身的预期生命周期以及质量评估等问题。

Mar, 2018