超越通用机器翻译：需要上下文特定的实证研究以设计适当的用户信任

May, 2022

超越通用机器翻译：需要上下文特定的实证研究以设计适当的用户信任

Beyond General Purpose Machine Translation: The Need for Context-specific Empirical Research to Design for Appropriate User Trust

PDF

Wesley Hanwen Deng, Nikita Mehandru, Samantha Robertson, Niloufar Salehi

TL;DR本文讨论 MT 系统的质量评估和信任度，分享医生使用 MT 系统的经验和挑战，并提倡实证研究是解决用户和 MT 系统之间信任问题的重要第一步。

Abstract

machine translation (MT) has the potential to help people overcome language barriers and is widely used in high-stakes scenarios, such as in hospitals. However, in order to use MT reliably and safely, users need to understand when to →

machine translation mt outputs trust quality assessment empirical study

发现论文，激发创造

医生对机器翻译中的临床危害的检测：质量估计有助于信赖和反向翻译发现关键错误

机器翻译的实际应用中一个重要的挑战是用户缺乏决策指导，本文通过在高风险的医疗环境中模拟决策过程，评估了质量估计反馈对决策的影响，发现质量估计提高了适当依赖机器翻译的能力，但与仅使用质量估计相比，后翻译帮助医生发现了更多常常被质量估计忽视的临床上有害的错误。

Oct, 2023

机器翻译的质量期望

该论文旨在讨论机器翻译是如何被应用的，如何评估其输出，以及如何提高机器翻译的质量，特别是作为人类翻译的生产力增强工具，其中需要考虑翻译本身的预期生命周期以及质量评估等问题。

Mar, 2018

机器翻译评估概述

自 20 世纪 50 年代以来，机器翻译 (MT) 已成为人工智能和开发的重要任务之一，并经历了几个不同阶段的发展，随着这些发展，评估方法在统计翻译和神经翻译研究中扮演着重要角色，该报告概述了评估方法的发展历程、研究方法分类和最新进展，并包括参考翻译的手动评估和自动评估方法。

Feb, 2022

多模机器翻译中视觉语境需要的经验证实

通过设计可解释的多模态翻译模型，我们发现多模态信息对于机器翻译的提升并不显著，相反是由于正则化效应带来的，这一发现强调了可解释性在未来研究中的重要性及其作用。

May, 2021

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

机器翻译研究的科学可信度：769 篇论文的元评估

本文是机器翻译评估的第一篇大规模元评估，发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估，并提出了一个简单的元评估评分方法来评估其可靠性。

Jun, 2021

机器翻译中的性别偏见

通过批判性地审视当前有关 MT 偏见的概念化，总结以往的性别偏见分析，讨论已提出的缓解策略，并指向未来工作的潜在方向，提出了一个统一的框架以便于未来研究。

Apr, 2021

专业字幕场景下的上下文机器翻译案例研究

将影片元数据等额外文本上下文引入机器翻译（MT）流程可以提高翻译质量，通过最近的自动评估可得知，但这类系统在工业领域的积极影响尚未得到证实。我们报告了一项工业案例研究，旨在调查 MT 在专业电视字幕翻译场景中的受益和如何利用额外文本上下文影响后期编辑。我们发现，在修正具有上下文感知模型 MTCue 输出时，与非上下文模型相比，后期编辑人员标记了更少与上下文相关的错误。我们还介绍了一项针对从业后期编辑人员的调查结果，该调查强调了 MT 中持续存在的上下文不足问题。我们的发现加强了在完全上下文化的 MT 领域开展进一步工作的动力。

Jun, 2024

基于 LLM 的机器翻译中加入文化意识

本研究着眼于如何将文化知识应用于大型语言模型的机器翻译中，提出了一种新的数据筛选方法来构建具有文化相关性的平行语料库，并设计了简单有效的提示策略以帮助大型语言模型实现机器翻译。经过广泛实验表明，这些方法可以大大帮助将文化知识融入到大型语言模型的机器翻译中，从而在翻译文化特定的句子方面优于传统的 NMT 系统。

May, 2023

选择机器翻译数据快速引导自然语言理解系统

本文研究了使用机器翻译（MT）为大规模语音控制设备的新语言引导自然语言理解（NLU）系统的使用情况，并探讨了不同的 MT 数据过滤方法以及语言特定的后处理方法在大规模 NLU 任务中的应用。结果表明，使用 MT 数据可以大大提高 NLU 的性能并减少人工工作量。

May, 2018