Mar, 2024

FlexCap: 在图像中生成丰富、本地化和灵活的标题

TL;DR我们介绍了一种多功能的 “灵活字幕” 视觉语言模型(VLM),能够生成长度各异的区域特定描述。该模型 FlexCap 训练用于为输入边界框生成长度条件化的字幕,从而控制其输出的信息密度,从简要的物体标签到详细的字幕不等。通过创建大规模的训练数据集,从带字幕的图像开始,我们实现了这一灵活字幕的功能,并展示了其在密集字幕任务、视觉问答和对象检测等领域具有广泛应用的优越性能。