Mar, 2024

基于文本数据的图像标题生成与交互提示

TL;DRTIPCap 是一种基于文本数据的交互提示的图像标题生成方法,通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异,并在生成标题之前引入可选的提示信息,优于其他弱监督或无监督的图像标题生成方法,并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。