基于 CNN 的空间金字塔 VLAD 编码的稠密图像表示与本地鲁棒性字幕生成

ECCVMar, 2016

基于 CNN 的空间金字塔 VLAD 编码的稠密图像表示与本地鲁棒性字幕生成

Dense Image Representation with Spatial Pyramid VLAD Coding of CNN for Locally Robust Captioning

Andrew Shin, Masataka Yamaguchi, Katsunori Ohnishi, Tatsuya Harada

TL;DR本文提出了一种使用局部聚合描述符（VLAD）将空间金字塔 CNN 特征编码的方法，以更准确地反映图像的局部信息。结果表明，使用 VLAD 编码可以仅使用 3％的维度匹配 CNN 特征，并与空间金字塔结合使用可以更准确地将局部元素考虑在内。

Abstract

The workflow of extracting features from images using convolutional neural networks (CNN) and generating captions with recurrent neural networks (RNN) has become a de-facto standard for image captioning task. How

convolutional neural networks recurrent neural networks image captioning vlad coding spatial pyramid

发现论文，激发创造

基于深度卷积神经网络和 VLAD 空间金字塔的交通场景识别

本文通过将基于区域提案算法生成的图像块的 CNN 特征应用于 VLAD 编码再进行空间金字塔编码，从而实现在 10 种交通场景分类上的应用。

Jul, 2017

NetVLAD：用于弱监督地点识别的 CNN 架构

本文提出了一个新的卷积神经网络结构 NetVLAD，通过基于新的弱监督排序损失的训练过程，从 Google 街景中的时间机器下载的图片中，快速和准确地识别所查询照片的位置。同时，该网络结构在两个具有挑战性的地点识别基准测试中优于非学习图像表示和现成卷积神经网络描述符，同时也改善了标准图像检索基准测试上的现有最先进的紧凑图像表示。

Nov, 2015

用拉普拉斯金字塔重建和细化进行语义分割

本文提出在卷积神经网络 (CNN) 中，通过 Laplacian 金字塔多分辨率重构和高分辨率特征地图的跳跃连接和乘法门来逐步优化从低分辨率地图中重构的区段边界，从而实现对需要密集像素标记的任务的高效语义分割。在 PASCAL VOC 和 Cityscapes 分割基准上实验，该方法能够实现最先进的语义分割结果。

May, 2016

视频字幕的时空动态与语义属性增强视觉编码

本篇文章提出了一种视觉特征编码技术，使用门控循环单元（GRUs）生成语义丰富的视频字幕，并在 MSVD 和 MSR-VTT 数据集上创造了新的 METEOR 和 ROUGE_L 度量标准的最新技术水平。

Feb, 2019

基于混合 CNN 和基于词典模型的场景识别与领域自适应

在本文中，我们提出了将卷积神经网络与基于字典的模型相结合，用于场景识别和视觉域自适应，并且我们发现所提出的混合表示法相较于仅使用卷积神经网络模型具有更好的表现。

Jan, 2016

MultiRes-NetVLAD: 使用低分辨率图像增强地点识别训练

本文提出了一种多分辨率特征金字塔编码视觉识别方法，称为 MultiRes-NetVLAD，可以更准确地匹配全球地点描述符，从而使 global descriptor based retrieval 能够达到最先进的召回率水平。

Feb, 2022

利用深度网络中的本地特征进行图像检索

本文研究采用卷积神经网络在图像检索中的应用，通过提取不同层的卷积特征，使用 VLAD 编码转化为一个单一向量，探讨不同层和规模在特征处理中的影响，发现较低的层次和更精细的尺度能够更好地提升图像检索的准确度，同时对比了其他方法，最终取得了业界领先的成果。

Apr, 2015

基于密集属性特征图的加权 VLAD 人群计数

本文提出了一种在学习局部感知特征集时融入语义信息的方法，使用卷积神经网络将原始像素空间映射为密集的属性特征图，并提出使用邻域补丁上空间金字塔的 LAF 来探索更多的空间上下文和局部信息，通过扩展传统的 VLAD 编码方法，将多样的系数权重考虑进去。实验证明了所提出的方法的有效性。

Apr, 2016

DenseCap: 全卷积定位网络用于密集字幕

该研究介绍了密集报告任务，提出了一种全卷积定位网络（FCLN）架构来联合处理图像的局部定位和描述，在视觉基因组数据集上进行了评估，证明相比现有技术的基线，其速度和准确性都有所提高。

Nov, 2015

深度卷积网络中的空间金字塔池化用于视觉识别

本研究提出了 SPP-net 结构，通过空间金字塔池化策略，消除了深度卷积神经网络所需的特定输入图像大小的限制，可生成固定长度特征表示，显著提高了基于 CNN 的图像分类和目标检测方法的准确性，ILSVRC 竞赛中名列前茅。

Jun, 2014