辛普森悖论与翻译的准确性与流利性权衡

Feb, 2024

辛普森悖论与翻译的准确性与流利性权衡

Simpson's Paradox and the Accuracy-Fluency Tradeoff in Translation

Zheng Wei Lim, Ekaterina Vylomova, Trevor Cohn, Charles Kemp

TL;DR一篇关于翻译质量评估和机器翻译系统的研究，发现在语料库的层次上准确性和流畅度呈正相关，但在单个源段的层次上二者存在权衡，对于评估翻译质量和改进机器翻译系统具有重要影响。

Abstract

A good translation should be faithful to the source and should respect the norms of the target language. We address a theoretical puzzle about the relationship between these objectives. On one hand, intuition and some prior work suggest that →

translation accuracy fluency quality assessment mt systems

发现论文，激发创造

翻译模型缺乏流畅度的影响

本文描述了一种基于梯度的机器翻译模型训练方法，在去除了语言偏差和提高流畅度的基础上，使用反转和增强技术提高翻译模型的性能。

May, 2022

探究人机评估并行口语翻译的相关性

评估口译服务的表现是一项复杂的任务，尤其是在应用自动评估方法时，本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性，结果表明 GPT 模型，特别是 GPT-3.5 具有最强的语义相似性相关性，即使在评估短文本片段时也是如此。

Jun, 2024

人工神经网络翻译中人类表现的重新评估：实现不可实现的目标？

本文重新评估了一项最近的研究 (Hassan et al.,2018)，即使用成对排序法并考虑到三个变量，重申机器翻译在从中文到英文的新闻翻译方面已达到人类水平，我们提供了一组人类评估未来机器翻译的建议。

Aug, 2018

多元神经机器翻译的流畅性和忠实度建模

论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法，从流畅性和忠实度的角度引导模型生成具有连接性的短语，实验结果表明，该方法可以显著提高翻译质量。

Nov, 2019

评估人机语言翻译平衡性的建议

研究发现 2018 年 Hassan 等人的评估设计有问题，导致其认为人工翻译和机器翻译有同等水平的结论不准确，因此需要重新审视现有的评估方法，并且提出了一系列改进建议。

Apr, 2020

翻译错误对跨语言学习中的低资源语言有重大影响

在评估跨语言语言理解的常用基准（如 XNLI）中，通过专业翻译人员创建用于多个目标语言的英文评估集的平行版本非常重要，以确保所有目标语言的高质量翻译，以准确地进行跨语言转移的表征。本研究发现，存在翻译的不一致性，并且这些不一致性在 XNLI 中对于低资源语言具有不成比例的影响。通过在多个目标语言的人工翻译和机器翻译目标文本之间进行零 - shot 评估的性能差距来识别这种不一致性，表现出相对较大的差距即为翻译错误的指示。此外，通过对印地语和乌尔都语这两种目标语言进行人工重新注释的方式，我们证实了翻译错误的存在，并发现这些实例与其原始的英文标签之间存在较差的一致性。

Feb, 2024

语音的一致转录和翻译

本研究探索了一种同时实现语音转写和翻译的方法，并比较了传统串联式方法和端到端模型的表现。研究发现，直接模型不适用于这一任务，但采用耦合推理过程的端到端模型能够实现强一致性。此外，研究还引入了直接优化一致性的简单技术，并分析了一致性、转写准确性和翻译准确性之间的权衡。

Jul, 2020

机器翻译达到人类水平了吗？文档级别评估的案例分析

在文档级翻译评估中，人类对于独立句子评价更偏向于人类翻译而非机器翻译，强调了机器翻译向文档级评价迈进的必要性。

Aug, 2018

多语言任务训练和推断中的翻译工件协同

本研究探讨在多语言任务中同时使用源语言和目标语言翻译数据的效果，并得出使用翻译工具造成的风格化翻译差异是提高性能的主要因素。此外，我们提出了一种名为 MUSC 的跨语言微调算法，该方法结合了 SupCon 和 MixUp，可以进一步提高多语言分类任务的性能。

Oct, 2022

自然语言推理中错误多少是由于释义的变异导致的？

大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标，该指标基于模型在同一问题的两个改写上的正确性概率，并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集，我们测量了几种模型类别的改写一致性，并展示了一致性随预训练而显著增加，而微调则没有。所有测试模型在改写一致性方面都有改进的空间。

Apr, 2024