Jul, 2024

Translatotron-V(ison): 图像内机器翻译的端到端模型

TL;DRTranslatotron-V(ision)是一个端到端的图像机器翻译模型,通过四个模块实现,其中包括图像编码器、图像解码器、目标文本解码器和图像分词器,并采用两阶段训练框架以提高模型对多模态和多语言的对齐能力,同时引入结构化BLEU作为评估生成图像翻译质量的指标。实验证明,该模型在与级联模型参数仅占70.9%的情况下取得了有竞争力的性能,并且显著优于像素级端到端的图像机器翻译模型。