深度描述符转换用于图像共定位

IJCAIMay, 2017

Deep Descriptor Transforming for Image Co-Localization

Xiu-Shen Wei, Chen-Lin Zhang, Yao Li, Chen-Wei Xie, Jianxin Wu...

TL;DR本文提出了一种名为 Deep Descriptor Transforming (DDT) 的方法，通过对前馈模型的卷积层输出进行研究，实现对共同物体的定位，从而提升图像共定位问题的效率和精度。实验结果表明，近期方法 DTT 相较于其他同类方法，有更高的鲁棒性和泛化能力。

Abstract

Reusable model design becomes desirable with the rapid expansion of machine learning applications. In this paper, we focus on the reusability of pre-trained deep convolutional models. Specifically, different from treating →

pre-trained models deep convolutional models deep descriptor transforming image co-localization object detection

发现论文，激发创造

通过深度描述符转换实现的无监督物体发现和共定位

本文聚焦于预训练深度卷积神经网络模型的可重复使用性，提出了一种称为 Deep Descriptor Transforming (DDT) 的方法，可以准确定位一组未标记图像中的共同对象，具有良好的泛化性和稳健性，并可用于收集 Web 图像作为有效的外部数据源，以提高图像识别和目标检测的性能。

Jul, 2017

深度卷积神经网络中的零件检测器发现

本文提出了一种基于预训练卷积神经网络的物体部位发现和定位方法 PDD，通过分析网络输出的梯度映射并找到与语义部分或边界框有空间关系的激活中心，实现对 CUB200-2011 数据集进行优秀的监测和分类性能，同时不需要在测试期间给定边界框或计算真假部分。

Nov, 2014

DDT: 双分支变形 Transformer 图像去噪

本文提出了一种高效的 Dual-branch Deformable Transformer (DT) 去噪网络，在局部和全局分支中均应用了可变形关注机制，能够更好地捕捉图像中的局部和全局交互，并能显著减少计算成本，取得了在真实世界和合成去噪任务方面的最先进性能。

Apr, 2023

使用轨迹池化深度卷积描述符的动作识别

本文提出一种新的视频表示方法 TDD，通过利用深度卷积特征和轨迹约束池化来学习生成自动化的高度区分性的特征描述符，通过归一化方法来提高 TDD 鲁棒性，实验结果表明 TDD 优于之前使用的手工制作和深度学习的特征方法在动作识别方面的性能。

May, 2015

深度卷积特征聚合的图像检索

本文通过对局部卷积神经网络特征进行聚合研究，提出一种基于简单加总池化的高效图像检索方法，取得了显著提升的效果。

Oct, 2015

协同描述符：卷积映射进行预处理

本研究提出了一种协同描述符的新概念，通过使用卷积地图作为手工特征的输入，我们达到了深度学习和手工特征之间的协作。实验结果表明，在多类目标识别和汽车检测方面，性能分别提高了 17.06％和 24.71％。这一简单的框架应该可以得到继承来提高图像表示能力。

May, 2017

双层协作变压器用于图像字幕生成

本研究提出一种新型双层协作变换器（DLCT）网络，结合传统网格特征和目标检测网络提取的描述性区域特征，利用双向自注意力和局部约束交叉关注模块来加强区域和网格特征间的语义语境关系，进一步提高图像字幕生成的性能，并在 MS-COCO 数据集上达到新的最先进性能。

Jan, 2021

基于时空补充学习的卷积 - Transformer 深度耦合网络用于视频行人再识别

本研究提出一种深度耦合的卷积 - Transformer 框架用于高性能视频人员重识别，包括特征提取、空间互补学习、时间互补学习以及自蒸馏训练策略，并取得了更好的性能。

Apr, 2023

使用深度卷积神经网络进行多视角人脸检测

本文提出了一种基于卷积神经网络的 Deep Dense Face Detector (DDFD) 方法，不仅不需要姿态或者地标注释，而且能够探测多个视角下人脸的位置，并且表现出与其他方法相当或优于其他更为复杂的方法。

Feb, 2015

局部特征和视觉单词在激活中出现

该研究提出了一种新颖的用于图像检索的深度空间匹配方法。该方法利用卷积神经网络激活函数提取图像描述符，同时采用一组局部特征来近似稀疏的三维激活张量，从而实现对张量最优对齐的稳健匹配，并在不需要任何网络修改、额外的网络层或训练、视觉聚类的情况下实现图像检索。该方法在多个基准测试中实现了最先进的性能。

May, 2019