ICCVAug, 2023

CLIPTrans:基于预训练模型的多模态机器翻译中的视觉知识迁移

TL;DR本研究提出了 CLIPTrans 框架,通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型,使它们的嵌入空间对齐,并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点,并将标准基准提升了平均 2.67 个 BLEU 值。