MICap: 一个统一的身份感知电影描述模型

CVPRMay, 2024

MICap: 一个统一的身份感知电影描述模型

MICap: A Unified Model for Identity-aware Movie Descriptions

Haran Raajesh, Naveen Reddy Desanur, Zeeshan Khan, Makarand Tapaswi

TL;DR本文介绍了一种新的单阶段方法，可以在给定带空白的字幕时无缝切换到基于身份感知的字幕生成或填空任务。我们使用一个共享自回归解码器的模型（MICap），该模型在 FITB 和全字幕生成目标的训练中受益，而编码器可以根据需要利用或忽略输入中带有空白的字幕。此外，我们还引入了一种名为 iSPICE 的字幕评估指标，该指标专注于通过中间场景图创建的身份元组，对于身份感知的字幕生成存在的一个挑战是缺乏捕捉人物身份之间细微差异的度量标准。最后，我们在大规模电影描述挑战（LSMDC）上评估 MICap，其中显示 FITB 准确性提高了 4.2％，传统字幕生成指标增加了 1-2％。

Abstract

Characters are an important aspect of any storyline and identifying and including them in descriptions is necessary for story understanding. While previous work has largely ignored identity and generated captions with someone (anonymized names), recent work formulates id-aware

captioning identity caption generation fill-in-the-blanks micap

发现论文，激发创造

MeaCap: 存储增强的零样本图像描述

提出了一种新颖的记忆增强型零样本图像字幕生成框架（MeaCap），通过装备文本记忆并引入检索 - 过滤模块，使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型，生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕；该框架在一系列零样本图像字幕设置中取得了最先进的性能。

Mar, 2024

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

走向对图片的独特和信息丰富的字幕

本文通过实证实验对现代的图像标注系统和评价指标进行了分析，并引入了一种新的独特度度量标准 SPICE-U，该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。

Sep, 2020

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

DeCap：通过纯文本训练对 CLIP 潜变量进行解码，实现零样本描述

该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题，通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求，并提出了一个训练 - free 机制来减少模态间差异。实验证明，DeCap 在典型的图像说明基准测试中表现优异。

Mar, 2023

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

展示、编辑、描述：一种编辑图像标题的框架

本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法，该方法包括两个子模块：一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet，实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。

Mar, 2020

指导图像字幕模型生成更具体的字幕

基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Jul, 2023

一图胜千言：原则性重描述提升图像生成

通过重新标注语料库并以此为基础训练文本到图像模型，可以显著提高模型的图像质量和语义对齐，并减少训练与推理之间的差异，增加样例效率，使模型更好地理解标题和图像之间的关系。

Oct, 2023

FlexCap: 在图像中生成丰富、本地化和灵活的标题

我们介绍了一种多功能的 “灵活字幕” 视觉语言模型（VLM），能够生成长度各异的区域特定描述。该模型 FlexCap 训练用于为输入边界框生成长度条件化的字幕，从而控制其输出的信息密度，从简要的物体标签到详细的字幕不等。通过创建大规模的训练数据集，从带字幕的图像开始，我们实现了这一灵活字幕的功能，并展示了其在密集字幕任务、视觉问答和对象检测等领域具有广泛应用的优越性能。

Mar, 2024