机器创建的通用语言,用于跨语言传输
UC2 是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集,通过机器翻译引入了其他语言的图像标题,然后将标准的 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言环境,通过共享视觉上下文(即使用图像作为枢纽)来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务,Masked Region-to-Token Modeling(MRTM)和 Visual Translation Language Modeling(VTLM),以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明,我们的提议框架在各种非英语基准上实现了新的最先进状态,并在英语任务上保持与单语预训练模型相当的性能。
Apr, 2021
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
本文介绍了一种针对数据有限的语言的新的通用机器翻译方法,利用迁移学习的方法,在多源语言之间共享词汇和句子级别的表示,从而帮助低资源的语言利用高资源语言的词汇和句子表示,在罗马尼亚语 - 英语 WMT2016 上,我们的方法在 6k 的平行语料库上能够获得 23 BLEU 分数,远高于使用多语言训练和反向翻译的强基线系统的 18 BLEU 分数,此外,我们还展示了该方法可以在零样本条件下对同一数据集进行微调,达到接近 20 BLEU 的分数。
Feb, 2018
本论文的研究目标是证明通用机器翻译算法的理论限制并提出更好的算法设计。研究发现在缺乏数据结构假设的情况下,任何算法都将在至少一个翻译任务上产生较大的翻译误差。此外,文档语料库采用编码器 - 解码器生成过程可用来实现 “泛化” 的自然概念,并且图像语言对之间的连接路径越长,需要的语言对数量也就越多。
Aug, 2020
本文提出了一种新的跨语言预训练方法,通过融合显式的跨语言训练信号,从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.
Aug, 2019
使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配,翻译 - 测试可以比之前假定的效果更好,从而对跨语言分类的多语言模型的支配提出了质疑,并促使更多关注基于机器翻译的基准线。
May, 2023
本文结合视觉和语言的跨语言预训练方法,使用三重并行视觉和语言语料库进行预训练,并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。
Jan, 2021
利用机器翻译作为持续训练目标来增强语言表示学习在跨语言学习中的作用研究发现,机器翻译无法增强多个跨语言自然语言理解任务中的跨语言表示学习,这对未来的跨语言转移研究有重要影响。
Mar, 2024
通过跨语言预训练的双语预训练方法,建立了通用编码器,将传递者和接受者的语言空间对齐,使得零翻译成为可能。实验结果表明,该方法显著优于强的基准线和各种多语言 NMT 方法。
Dec, 2019