超越通用机器翻译:需要上下文特定的实证研究以设计适当的用户信任
机器翻译的实际应用中一个重要的挑战是用户缺乏决策指导,本文通过在高风险的医疗环境中模拟决策过程,评估了质量估计反馈对决策的影响,发现质量估计提高了适当依赖机器翻译的能力,但与仅使用质量估计相比,后翻译帮助医生发现了更多常常被质量估计忽视的临床上有害的错误。
Oct, 2023
该论文旨在讨论机器翻译是如何被应用的,如何评估其输出,以及如何提高机器翻译的质量,特别是作为人类翻译的生产力增强工具,其中需要考虑翻译本身的预期生命周期以及质量评估等问题。
Mar, 2018
自 20 世纪 50 年代以来,机器翻译 (MT) 已成为人工智能和开发的重要任务之一,并经历了几个不同阶段的发展,随着这些发展,评估方法在统计翻译和神经翻译研究中扮演着重要角色,该报告概述了评估方法的发展历程、研究方法分类和最新进展,并包括参考翻译的手动评估和自动评估方法。
Feb, 2022
通过设计可解释的多模态翻译模型,我们发现多模态信息对于机器翻译的提升并不显著,相反是由于正则化效应带来的,这一发现强调了可解释性在未来研究中的重要性及其作用。
May, 2021
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
本文是机器翻译评估的第一篇大规模元评估,发现了在过去十年中自动 MT 评估的做法已经发生了巨大的变化和令人担忧的趋势。我们提出了指南来鼓励更好的自动 MT 评估,并提出了一个简单的元评估评分方法来评估其可靠性。
Jun, 2021
将影片元数据等额外文本上下文引入机器翻译(MT)流程可以提高翻译质量,通过最近的自动评估可得知,但这类系统在工业领域的积极影响尚未得到证实。我们报告了一项工业案例研究,旨在调查 MT 在专业电视字幕翻译场景中的受益和如何利用额外文本上下文影响后期编辑。我们发现,在修正具有上下文感知模型 MTCue 输出时,与非上下文模型相比,后期编辑人员标记了更少与上下文相关的错误。我们还介绍了一项针对从业后期编辑人员的调查结果,该调查强调了 MT 中持续存在的上下文不足问题。我们的发现加强了在完全上下文化的 MT 领域开展进一步工作的动力。
Jun, 2024
本研究着眼于如何将文化知识应用于大型语言模型的机器翻译中,提出了一种新的数据筛选方法来构建具有文化相关性的平行语料库,并设计了简单有效的提示策略以帮助大型语言模型实现机器翻译。经过广泛实验表明,这些方法可以大大帮助将文化知识融入到大型语言模型的机器翻译中,从而在翻译文化特定的句子方面优于传统的 NMT 系统。
May, 2023
本文研究了使用机器翻译(MT)为大规模语音控制设备的新语言引导自然语言理解(NLU)系统的使用情况,并探讨了不同的 MT 数据过滤方法以及语言特定的后处理方法在大规模 NLU 任务中的应用。结果表明,使用 MT 数据可以大大提高 NLU 的性能并减少人工工作量。
May, 2018