May, 2023

Cross2StrA: 无配对跨语言图像字幕生成与跨语言跨模态结构中心对齐

TL;DR本文提出引入场景图和句法树来解决跨语言图像描述中存在的不相关性和表达不流畅的问题,并介绍了一种跨语言和跨模态的后向翻译训练方法,实现图像到最终描述的完全对齐,实验结果表明该模型在提高图像描述的相关性和流畅性方面表现出很大的优势。