互相理解的语言更易翻译吗？

Jan, 2022

Are Mutually Intelligible Languages Easier to Translate?

Avital Friedland, Jonathan Zeltser, Omer Levy

TL;DR通过研究人类的语言学习过程，我们发现，语言对的互相理解程度与训练神经机器翻译模型所需数据量成反比。实验结果表明，在罗曼语系中，语言互相理解程度和神经机器翻译模型的学习曲线下面积存在强相关性。

Abstract

Two languages are considered mutually intelligible if their native speakers can communicate with each other, while using their own mother tongue. How does the fact that humans perceive a language pair as

mutually intelligible native speakers neural machine translation romance language group learning curve

发现论文，激发创造

探索有监督学习和自监督学习之间的协同作用：迈向多语言机器翻译的下一个 1000 种语言

通过混合监督和自我监督目标的方法，实现了覆盖数百种语言的多语言机器翻译模型的构建，该方法可在零资源情况下生成高质量翻译，甚至超过低 - 中资源语言的监督翻译质量。

Jan, 2022

多语言翻译干扰的原因和解决方法

本文介绍了多语言机器翻译中干扰现象的主要因素，以及如何通过控制模型大小、数据大小和采样温度来减轻干扰并提升性能。

Dec, 2022

所知多语言影响学习多语言的方法：语言特性对多语言文本转换的影响

本文在分析预训练 mT5 模型对 90 种语言对之间交叉语言联系学习时，发现源语言和目标语言的语法、形态和音韵相似度对于跨语言传递的表现具有良好的预测性，可望提高零样本性能表现。

Dec, 2022

学习语言不变表示以实现通用机器翻译

本论文的研究目标是证明通用机器翻译算法的理论限制并提出更好的算法设计。研究发现在缺乏数据结构假设的情况下，任何算法都将在至少一个翻译任务上产生较大的翻译误差。此外，文档语料库采用编码器 - 解码器生成过程可用来实现 “泛化” 的自然概念，并且图像语言对之间的连接路径越长，需要的语言对数量也就越多。

Aug, 2020

不要排除掉单语言说话者：一种众包机器翻译数据的方法

本文提出了一种新的机器翻译数据集，利用 GIF 作为中介，从单语注释器中收集平行句子，从而降低了需要寻找、训练双语人员的成本，并经过内在和外在评估，发现使用 GIFs 收集的句子确实具有更高的质量。

Jun, 2021

对抗性数据集上跨语言迁移至资源较少的语言的鲁棒性

多语言语言模型（MLLMs）展现了强大的跨语言转移能力，本研究旨在调查源语言应用于目标语言的效果，特别是在扰动输入测试集的情况下，发现命名实体识别的跨语言转移主要取决于实体块的重叠，研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。

Mar, 2024

词汇语义如何影响翻译？一项实证研究

本文研究了神经机器翻译系统在不同语言对之间的翻译表现，发现目标语言与英语越相似，翻译表现越好。另外，还探讨了在基于 Transformer 的模型中提供英语词汇的词性标记对翻译表现的影响。

Dec, 2021

探究人机评估并行口语翻译的相关性

评估口译服务的表现是一项复杂的任务，尤其是在应用自动评估方法时，本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性，结果表明 GPT 模型，特别是 GPT-3.5 具有最强的语义相似性相关性，即使在评估短文本片段时也是如此。

Jun, 2024

多语言大型语言模型的跨语言能力和知识障碍

通过评估六种最先进的大型语言模型在跨语言任务上的表现，本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力，但在更深层次的跨语言知识转移上存在困难，揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法，有效减少了这些差距，甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。

Jun, 2024

多语言遮蔽语言模型的跨语言能力：语言结构研究

研究了多语言预训练语言模型的跨语言能力，得出结论组成是成功的跨语言转移的关键因素。

Mar, 2022