将语义概念注入端到端图像字幕生成

Dec, 2021

将语义概念注入端到端图像字幕生成

Injecting Semantic Concepts into End-to-End Image Captioning

Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lin Liang, Zhe Gan...

TL;DR本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Abstract

Tremendous progress has been made in recent years in developing better image captioning models, yet most of them rely on a separate object detector to extract regional features. Recent vision-language studies are shifting towards the detector-free trend by leveraging →

image captioning vision transformer concept token network detector-free grid representations

发现论文，激发创造

一种简单且高效的端到端图像描述方法

通过联接预训练的视觉编码器和语言解码器，提出了一种自组装的交叉模式融合机制，建立了一种朴素但高效的端到端形象字幕框架，名为 VC-GPT，不需要额外的物体探测器，非常好地解决了现有方法中可能存在的问题，验证结果显示 VC-GPT 完全超越了传统基线系统。

Jan, 2022

RefineCap: 图像字幕的概念感知细化

该论文提出了一种新型模型 RefineCap，使用解码器引导的视觉语义来完善语言解码器的输出词汇，并隐式地学习图像与视觉标签词之间的映射，其提出的视觉概念完善方法可允许生成器关注图像中的语义细节，从而生成更具有语义描述性的标题。在与以前基于视觉概念的模型相比，我们的模型在 MS-COCO 数据集上实现了优越的性能。

Sep, 2021

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

视觉 Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在 ImageNet top-1 和 LIP，COCO-stuff 图像分割测试上表现出了显着的优势。

Jun, 2020

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

TCIC: 图像描述中的主题概念跨语言与视觉学习

本文提出了一种将主题概念引入图像字幕生成的框架，使用记忆向量和 Transformer with Theme Nodes (TTN) 处理主题概念并进行图像和文本表示的重构，通过两种表示学习方法实现跨模态学习，实验结果表明该方法比其他最先进的模型更为有效。

Jun, 2021

GroupViT：语义分割从文本监督中崛起

本文提出了一种针对视觉场景理解任务的新型深度学习网络 —— 分层分组视觉变换器 (GroupViT)，能够学习将图像区域分组成任意形状的语义段，且仅依赖于文本监督，无需像素级注释，实现了零阶段语义分割任务，并在 PASCAL 语义分割数据集上获得了 52.3% 的 mIoU。

Feb, 2022

CapDet: 统一密集字幕和开放世界检测预训练

本文提出了一种名为 CapDet 的新方法，通过将开放世界检测和密集字幕任务统一到一个框架中，引入额外的密集字幕头生成区域定位的字幕，以预测给定类别列表下的结果或直接生成预测边界框的类别，并证明该方法通过加入字幕任务，提高了检测性能的概括能力，并在密集字幕任务上取得了类似 VG V1.2 上 15.44% 和 VG-COCO 数据集上 13.98% 的 MAP 等方面的最先进性能。

Mar, 2023