Jan, 2024

可控的深度描述生成器与多模态嵌入桥接

TL;DR提出了一种名为 ControlCap 的可控制的密集字幕生成器,通过引入语言指导来适应用户对于密集字幕生成的意图。ControlCap 是由多模态嵌入生成模块和双向嵌入桥接模块组成的多模态嵌入桥接架构。实验证明,ControlCap 在 Visual Genome 和 VG-COCO 数据集上分别比现有方法提高了 1.5% 和 3.7%(mAP)。并且,通过将区域 - 类别对转换为区域 - 文本对,ControlCap 可以作为密集字幕生成的强大数据引擎。