DenseCap: 全卷积定位网络用于密集字幕

Nov, 2015

DenseCap: 全卷积定位网络用于密集字幕

DenseCap: Fully Convolutional Localization Networks for Dense Captioning

Justin Johnson, Andrej Karpathy, Li Fei-Fei

TL;DR该研究介绍了密集报告任务，提出了一种全卷积定位网络（FCLN）架构来联合处理图像的局部定位和描述，在视觉基因组数据集上进行了评估，证明相比现有技术的基线，其速度和准确性都有所提高。

Abstract

We introduce the dense captioning task, which requires a computer vision system to both localize and describe salient regions in images in natural language. The →

dense captioning computer vision localization fcln visual genome

发现论文，激发创造

联合推断与视觉上下文下的密集字幕

本研究提出了一种基于 “联合推理” 和 “上下文融合” 的模型管道来解决密集字幕的两个关键挑战，并在 Visual Genome 上取得了目前最佳算法的相对增益 73％的最新成果。

Nov, 2016

弱监督密集型视频字幕生成

本文提出了一种基于弱监督信息的密集视频描述方法，通过词汇全卷积神经网络、亚模量最大化算法、序列到序列学习语言模型等技术，既可以生成信息丰富、多样化的密集字幕，也能大幅度领先于现有的单视频字幕生成方法。

Apr, 2017

FlexCap: 在图像中生成丰富、本地化和灵活的标题

我们介绍了一种多功能的 “灵活字幕” 视觉语言模型（VLM），能够生成长度各异的区域特定描述。该模型 FlexCap 训练用于为输入边界框生成长度条件化的字幕，从而控制其输出的信息密度，从简要的物体标签到详细的字幕不等。通过创建大规模的训练数据集，从带字幕的图像开始，我们实现了这一灵活字幕的功能，并展示了其在密集字幕任务、视觉问答和对象检测等领域具有广泛应用的优越性能。

Mar, 2024

基于 CNN 的空间金字塔 VLAD 编码的稠密图像表示与本地鲁棒性字幕生成

本文提出了一种使用局部聚合描述符（VLAD）将空间金字塔 CNN 特征编码的方法，以更准确地反映图像的局部信息。结果表明，使用 VLAD 编码可以仅使用 3％的维度匹配 CNN 特征，并与空间金字塔结合使用可以更准确地将局部元素考虑在内。

Mar, 2016

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

OverFeat: 使用卷积网络集成识别、定位和检测

本文提出了一个基于卷积网络进行分类、定位和检测的综合框架，展示了如何在 ConvNet 中高效实现多尺度和滑动窗口方法，并通过学习预测目标边界来实现定位，最后释放了我们最佳模型的特征提取器 OverFeat。

Dec, 2013

基于全卷积网络的多方向文本检测

该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法，通过综合考虑本地和全局线索，以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设，并使用另一个卷积神经网络分类器预测每个字符的质心，以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面，该方法实现了最先进的性能。

Apr, 2016

多尺度多实例视频描述网络

该研究通过将基础卷积神经网络（CNN）与多个完全卷积神经网络（FCN）相结合，形成多尺度网络，从而实现对包括不同尺寸和位置的多个对象的检测，结合 MI 机制，处理多个对象和位置的歧义，生成视频描述。该架构可有效地支持自然语言生成和视频处理任务。

May, 2015

3D 密集字幕的全面调查：定位和描述 3D 场景中的物体

3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务，旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述，涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献，我们提炼了一个作为现有方法共同范例的标准流程，并提出了一种清晰的现有模型分类方法，并总结了不同模块中涉及的技术，并进行了详细的实验分析。同时，我们也提出了一系列有前景的 3D 密集图像描述的未来方向，并将其与相关任务的发展相结合，为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解，促进进一步的研究，并在多媒体和相关领域的新应用的发展中做出贡献。

Mar, 2024

ImageCLEFmed Caption 2020 任务的竞争性深度神经网络方法

本文介绍了利用深度神经网络方法解决 ImageCLEFmed Caption 任务的过程，最终在不使用外部医学知识或预先训练模型的情况下，对 3,534 张放射学图像进行了医学概念的自动标注，得到了 F1 得分 0.375，排名第 12 位。

Jul, 2020