通过视觉和语音进行多模式机器翻译
多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域,本文通过综述先前的 99 项研究工作,全面总结了主要模型、数据集和评估指标,分析了各种因素对模型性能的影响,并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同,我们的调查从不同角度深入总结了这些新兴类型,以便为研究人员提供对目前研究状况的更好理解。
May, 2024
近期在多模式机器翻译(MMT)领域的研究表明,视觉模态在翻译效果方面要么可有可无,要么只提供了边缘化优势。然而,这些结论大多来自于对有限的双语句子 - 图像配对数据集(如 Multi30k)的实验结果分析,而这类数据集中,一个双语平行句对的内容必须由手工标注的图像很好地表达,这与真实的翻译场景不同。在这项工作中,我们遵循了唐等人(2022 年)提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集,深入研究视觉模态对翻译效果的影响。通过全面的探索性任务,我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是,翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外,我们的结果表明,视觉信息在多模式翻译中发挥了补充作用,可以被替代。
Apr, 2024
本文探究了多模态语言模型的研究,集成了多种数据类型,如图像、文本、语言、音频和其他异构数据。通过合并各种模态,多模态模型能够更全面地理解和处理多样化的数据,本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。
Nov, 2023
本文介绍了 LIUM 和 CVC 为 WMT16 Multimodal Machine Translation Challenge 开发的系统。我们在单模态数据和多模态数据的基础上,探索了各种比较方法,包括基于短语的系统和使用单模态或多模态数据训练的注意力循环神经网络模型。我们还进行了人类评估,以估计多模态数据对于人机翻译和图像描述生成的实用性。根据自动评估指标 BLEU 和 METEOR,我们的系统在这两个任务中获得了最佳结果。
May, 2016
提出了一种多模式神经机器翻译方法,即多模式同时翻译 (MSNMT),能够在翻译过程中利用视频信息和实现实时多语言理解。实验证实,该方法可显著提高翻译效率,特别是在低延迟情况下,比单纯文本的模型更加优秀。此外,我们通过对 MSNMT 的对抗性评估研究发现了视频信息在解码过程中的重要性,并分析了源语言和目标语言之间不同的单词顺序对翻译结果的影响。
Apr, 2020
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本文中,我们研究了多模式机器翻译(MMT)中视觉模态的贡献,通过分析证明,即使在有限的文本和文本上下文的情况下,模型也能够利用视觉输入来生成更好的翻译结果。
Mar, 2019
通过引入视觉语境作为通用的语言无关表示来促进多语言翻译的方法,该方法利用多模态提示来指导多模态多语言神经机器翻译,在低资源和大规模多语言场景下改善了翻译质量。
Mar, 2024
我们提出了一种新颖的 Tri-Modal Translation(TMT)模型,它能够在语音、图像和文本之间进行任意模态的翻译,并通过将语音和图像数据标记为离散标记来统一界面并显著降低计算成本。通过在 TMT 中使用多模态编码器 - 解码器进行核心翻译,同时仅在标记化和解标记化阶段进行模态特定的处理,我们评估了所提出的 TMT 在六个模态翻译任务上的性能,并且 TMT 始终优于单模型对应物,表明统一任务不仅在实用性上有益,而且在性能上也有益。
Feb, 2024