Mar, 2024
基于文本数据的图像标题生成与交互提示
Text Data-Centric Image Captioning with Interactive Prompts
Yiyu Wang, Hao Luo, Jungang Xu, Yingfei Sun, Fan Wang
TL;DRTIPCap 是一种基于文本数据的交互提示的图像标题生成方法,通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异,并在生成标题之前引入可选的提示信息,优于其他弱监督或无监督的图像标题生成方法,并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。