DenseCap: 全卷积定位网络用于密集字幕
本研究提出了一种基于 “联合推理” 和 “上下文融合” 的模型管道来解决密集字幕的两个关键挑战,并在 Visual Genome 上取得了目前最佳算法的相对增益 73%的最新成果。
Nov, 2016
本文提出了一种基于弱监督信息的密集视频描述方法,通过词汇全卷积神经网络、亚模量最大化算法、序列到序列学习语言模型等技术,既可以生成信息丰富、多样化的密集字幕,也能大幅度领先于现有的单视频字幕生成方法。
Apr, 2017
我们介绍了一种多功能的 “灵活字幕” 视觉语言模型(VLM),能够生成长度各异的区域特定描述。该模型 FlexCap 训练用于为输入边界框生成长度条件化的字幕,从而控制其输出的信息密度,从简要的物体标签到详细的字幕不等。通过创建大规模的训练数据集,从带字幕的图像开始,我们实现了这一灵活字幕的功能,并展示了其在密集字幕任务、视觉问答和对象检测等领域具有广泛应用的优越性能。
Mar, 2024
本文提出了一种使用局部聚合描述符(VLAD)将空间金字塔 CNN 特征编码的方法,以更准确地反映图像的局部信息。结果表明,使用 VLAD 编码可以仅使用 3%的维度匹配 CNN 特征,并与空间金字塔结合使用可以更准确地将局部元素考虑在内。
Mar, 2016
本文提出了一种新颖的密集视频字幕框架,它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成,后者利用强化学习进行训练,并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上,该方法在 ActivityNet Captions 数据集上取得了出色的表现。
Apr, 2019
本文提出了一个基于卷积网络进行分类、定位和检测的综合框架,展示了如何在 ConvNet 中高效实现多尺度和滑动窗口方法,并通过学习预测目标边界来实现定位,最后释放了我们最佳模型的特征提取器 OverFeat。
Dec, 2013
该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法,通过综合考虑本地和全局线索,以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设,并使用另一个卷积神经网络分类器预测每个字符的质心,以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面,该方法实现了最先进的性能。
Apr, 2016
该研究通过将基础卷积神经网络(CNN)与多个完全卷积神经网络(FCN)相结合,形成多尺度网络,从而实现对包括不同尺寸和位置的多个对象的检测,结合 MI 机制,处理多个对象和位置的歧义,生成视频描述。该架构可有效地支持自然语言生成和视频处理任务。
May, 2015
3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务,旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述,涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献,我们提炼了一个作为现有方法共同范例的标准流程,并提出了一种清晰的现有模型分类方法,并总结了不同模块中涉及的技术,并进行了详细的实验分析。同时,我们也提出了一系列有前景的 3D 密集图像描述的未来方向,并将其与相关任务的发展相结合,为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解,促进进一步的研究,并在多媒体和相关领域的新应用的发展中做出贡献。
Mar, 2024
本文介绍了利用深度神经网络方法解决 ImageCLEFmed Caption 任务的过程,最终在不使用外部医学知识或预先训练模型的情况下,对 3,534 张放射学图像进行了医学概念的自动标注,得到了 F1 得分 0.375,排名第 12 位。
Jul, 2020