互相理解的语言更易翻译吗?
通过混合监督和自我监督目标的方法,实现了覆盖数百种语言的多语言机器翻译模型的构建,该方法可在零资源情况下生成高质量翻译,甚至超过低 - 中资源语言的监督翻译质量。
Jan, 2022
本文在分析预训练 mT5 模型对 90 种语言对之间交叉语言联系学习时,发现源语言和目标语言的语法、形态和音韵相似度对于跨语言传递的表现具有良好的预测性,可望提高零样本性能表现。
Dec, 2022
本论文的研究目标是证明通用机器翻译算法的理论限制并提出更好的算法设计。研究发现在缺乏数据结构假设的情况下,任何算法都将在至少一个翻译任务上产生较大的翻译误差。此外,文档语料库采用编码器 - 解码器生成过程可用来实现 “泛化” 的自然概念,并且图像语言对之间的连接路径越长,需要的语言对数量也就越多。
Aug, 2020
本文提出了一种新的机器翻译数据集,利用 GIF 作为中介,从单语注释器中收集平行句子,从而降低了需要寻找、训练双语人员的成本,并经过内在和外在评估,发现使用 GIFs 收集的句子确实具有更高的质量。
Jun, 2021
多语言语言模型(MLLMs)展现了强大的跨语言转移能力,本研究旨在调查源语言应用于目标语言的效果,特别是在扰动输入测试集的情况下,发现命名实体识别的跨语言转移主要取决于实体块的重叠,研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。
Mar, 2024
本文研究了神经机器翻译系统在不同语言对之间的翻译表现,发现目标语言与英语越相似,翻译表现越好。另外,还探讨了在基于 Transformer 的模型中提供英语词汇的词性标记对翻译表现的影响。
Dec, 2021
评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如此。
Jun, 2024
通过评估六种最先进的大型语言模型在跨语言任务上的表现,本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力,但在更深层次的跨语言知识转移上存在困难,揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法,有效减少了这些差距,甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。
Jun, 2024