RefineCap: 图像字幕的概念感知细化

ACLSep, 2021

RefineCap: 图像字幕的概念感知细化

RefineCap: Concept-Aware Refinement for Image Captioning

Yekun Chai, Shuo Jin, Junliang Xing

TL;DR该论文提出了一种新型模型 RefineCap，使用解码器引导的视觉语义来完善语言解码器的输出词汇，并隐式地学习图像与视觉标签词之间的映射，其提出的视觉概念完善方法可允许生成器关注图像中的语义细节，从而生成更具有语义描述性的标题。在与以前基于视觉概念的模型相比，我们的模型在 MS-COCO 数据集上实现了优越的性能。

Abstract

Automatically translating images to texts involves image scene understanding and language modeling. In this paper, we propose a novel model, termed →

image scene understanding language modeling refinecap visual-concept refinement ms-coco dataset

发现论文，激发创造

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

CapEnrich: 通过跨模态预训练知识为 Web 图像增加标题语义

本文提出了一种基于 Vision-Language Pre-training 模型的插拔式框架 CapEnrich，通过自动数据构建策略和可学习 / 模板提示策略，为万维网上的无标签图片生成更加完整，丰富和具备语义的文本描述，从而将其应用于多模态检索和推荐等实际应用中。

Nov, 2022

一图胜千言：原则性重描述提升图像生成

通过重新标注语料库并以此为基础训练文本到图像模型，可以显著提高模型的图像质量和语义对齐，并减少训练与推理之间的差异，增加样例效率，使模型更好地理解标题和图像之间的关系。

Oct, 2023

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

展示、编辑、描述：一种编辑图像标题的框架

本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法，该方法包括两个子模块：一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet，实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。

Mar, 2020

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

TextCaps：一种带有阅读理解的图像字幕数据集

该研究创建了一个新的数据集 TextCaps，涉及 28k 张图片和 145k 个标题，用于挑战计算机视觉模型识别图像中的文本，与视觉环境进行关联，并决定要复制或释义文本的哪个部分。研究表明，这个新的数据集提供了许多前所未有的技术挑战。

Mar, 2020