Feb, 2024

TMT: 通过将不同形式阐述视为不同语言的三模式语音、图像和文本之间的翻译

TL;DR我们提出了一种新颖的 Tri-Modal Translation(TMT)模型,它能够在语音、图像和文本之间进行任意模态的翻译,并通过将语音和图像数据标记为离散标记来统一界面并显著降低计算成本。通过在 TMT 中使用多模态编码器 - 解码器进行核心翻译,同时仅在标记化和解标记化阶段进行模态特定的处理,我们评估了所提出的 TMT 在六个模态翻译任务上的性能,并且 TMT 始终优于单模型对应物,表明统一任务不仅在实用性上有益,而且在性能上也有益。