将语义概念注入端到端图像字幕生成
通过联接预训练的视觉编码器和语言解码器,提出了一种自组装的交叉模式融合机制,建立了一种朴素但高效的端到端形象字幕框架,名为 VC-GPT,不需要额外的物体探测器,非常好地解决了现有方法中可能存在的问题,验证结果显示 VC-GPT 完全超越了传统基线系统。
Jan, 2022
该论文提出了一种新型模型 RefineCap,使用解码器引导的视觉语义来完善语言解码器的输出词汇,并隐式地学习图像与视觉标签词之间的映射,其提出的视觉概念完善方法可允许生成器关注图像中的语义细节,从而生成更具有语义描述性的标题。在与以前基于视觉概念的模型相比,我们的模型在 MS-COCO 数据集上实现了优越的性能。
Sep, 2021
本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer,它通过适应图片的结构提高了自动图像描述的性能,并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。
Apr, 2020
本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量,从而在 ImageNet top-1 和 LIP,COCO-stuff 图像分割测试上表现出了显着的优势。
Jun, 2020
本文提出了一种用于创建图像标题的方法,通过采用额外的视觉信息,包括对象检测器、识别器等来丰富标题,经大型语言模型融合,生成全面的图像描述。实验证明,该方法有效,所提供的数据集显着提高了图像 - 文本检索。
May, 2023
通过引入基于分割模型的新型分词器策略,语义视觉转换器(sViT)在捕获显著特征和全局依赖关系的同时,提高了解释性和鲁棒性,相较于传统视觉转换器模型(ViT)在训练数据需求、分布泛化和解释性方面表现得更优。
Feb, 2024
本文提出了一种将主题概念引入图像字幕生成的框架,使用记忆向量和 Transformer with Theme Nodes (TTN) 处理主题概念并进行图像和文本表示的重构,通过两种表示学习方法实现跨模态学习,实验结果表明该方法比其他最先进的模型更为有效。
Jun, 2021
本文提出了一种针对视觉场景理解任务的新型深度学习网络 —— 分层分组视觉变换器 (GroupViT),能够学习将图像区域分组成任意形状的语义段,且仅依赖于文本监督,无需像素级注释,实现了零阶段语义分割任务,并在 PASCAL 语义分割数据集上获得了 52.3% 的 mIoU。
Feb, 2022
本文提出了一种名为 CapDet 的新方法,通过将开放世界检测和密集字幕任务统一到一个框架中,引入额外的密集字幕头生成区域定位的字幕,以预测给定类别列表下的结果或直接生成预测边界框的类别,并证明该方法通过加入字幕任务,提高了检测性能的概括能力,并在密集字幕任务上取得了类似 VG V1.2 上 15.44% 和 VG-COCO 数据集上 13.98% 的 MAP 等方面的最先进性能。
Mar, 2023