联合推断与视觉上下文下的密集字幕

Nov, 2016

联合推断与视觉上下文下的密集字幕

Dense Captioning with Joint Inference and Visual Context

Linjie Yang, Kevin Tang, Jianchao Yang, Li-Jia Li

TL;DR本研究提出了一种基于 “联合推理” 和 “上下文融合” 的模型管道来解决密集字幕的两个关键挑战，并在 Visual Genome 上取得了目前最佳算法的相对增益 73％的最新成果。

Abstract

dense captioning is a newly emerging computer vision topic for understanding images with dense language descriptions. The goal is to densely detect visual concepts (e.g., objects, object parts, and interactions b

dense captioning computer vision visual concepts model pipeline state-of-the-art accuracy

发现论文，激发创造

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

3D 密集字幕的全面调查：定位和描述 3D 场景中的物体

3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务，旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述，涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献，我们提炼了一个作为现有方法共同范例的标准流程，并提出了一种清晰的现有模型分类方法，并总结了不同模块中涉及的技术，并进行了详细的实验分析。同时，我们也提出了一系列有前景的 3D 密集图像描述的未来方向，并将其与相关任务的发展相结合，为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解，促进进一步的研究，并在多媒体和相关领域的新应用的发展中做出贡献。

Mar, 2024

上下文与属性基础的密集字幕

本文提出了一种基于上下文推理和多级属性的视觉挖掘及区域描述生成的密集字幕框架，并利用层次化语义属性提供辅助监督，实验结果表明该模型优于现有最先进的方法。

Apr, 2019

DenseCap: 全卷积定位网络用于密集字幕

该研究介绍了密集报告任务，提出了一种全卷积定位网络（FCLN）架构来联合处理图像的局部定位和描述，在视觉基因组数据集上进行了评估，证明相比现有技术的基线，其速度和准确性都有所提高。

Nov, 2015

密集视频字幕：技术、数据集和评估协议综述

使用 Dense Video Captioning (DVC) 技术，本文综述了在描述长视频时需要突出显示的相互关联事件、依赖关系、上下文、重叠事件、物体间的相互作用以及领域特定性等语义，同时讨论了 DVC 的子任务和它们的结果，涵盖视频特征提取、时间事件定位和密集字幕生成，还探讨了 DVC 所使用的数据集以及领域中的新挑战和未来趋势。

Nov, 2023

密集视频字幕生成中的事件定位与描述

本文提出了一种新的密集视频字幕生成框架，该框架将时间上的事件提案的本地化和生成句子主体的合并，通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进，创造了 12.96％的新的 METEOR 记录。

Apr, 2018

基于上下文门控双向注意力融合的密集视频字幕生成

本研究提出一种双向提案方法、注意力融合和上下文门控机制，将提案与字幕模块结合到一个统一的框架中，以在活动网字幕数据集上实现相对增益超过 100％（Meteor 得分从 4.82 增加到 9.65）的优异表现。

Mar, 2018

基于不相交监督的密集视频目标字幕生成

我们提出了一种针对密集视频对象字幕的新任务和模型 - 检测、跟踪和说明视频中所有对象的轨迹。

Jun, 2023

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

3DGCTR 是一个统一的框架，通过重新考虑 3DVG 模型的基于提示的定位能力，将轻量级字幕头集成到现有的 3DVG 网络中，通过提取提示中的定位信息，有效地提升了 3DDC 的能力，实现了同时进行多任务训练，互相增强性能。

Apr, 2024

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020