深度描述符转换用于图像共定位
本文聚焦于预训练深度卷积神经网络模型的可重复使用性,提出了一种称为 Deep Descriptor Transforming (DDT) 的方法,可以准确定位一组未标记图像中的共同对象,具有良好的泛化性和稳健性,并可用于收集 Web 图像作为有效的外部数据源,以提高图像识别和目标检测的性能。
Jul, 2017
本文提出了一种基于预训练卷积神经网络的物体部位发现和定位方法 PDD,通过分析网络输出的梯度映射并找到与语义部分或边界框有空间关系的激活中心,实现对 CUB200-2011 数据集进行优秀的监测和分类性能,同时不需要在测试期间给定边界框或计算真假部分。
Nov, 2014
本文提出了一种高效的 Dual-branch Deformable Transformer (DT) 去噪网络,在局部和全局分支中均应用了可变形关注机制,能够更好地捕捉图像中的局部和全局交互,并能显著减少计算成本,取得了在真实世界和合成去噪任务方面的最先进性能。
Apr, 2023
本文提出一种新的视频表示方法 TDD,通过利用深度卷积特征和轨迹约束池化来学习生成自动化的高度区分性的特征描述符,通过归一化方法来提高 TDD 鲁棒性,实验结果表明 TDD 优于之前使用的手工制作和深度学习的特征方法在动作识别方面的性能。
May, 2015
本研究提出了一种协同描述符的新概念,通过使用卷积地图作为手工特征的输入,我们达到了深度学习和手工特征之间的协作。实验结果表明,在多类目标识别和汽车检测方面,性能分别提高了 17.06%和 24.71%。这一简单的框架应该可以得到继承来提高图像表示能力。
May, 2017
本研究提出一种新型双层协作变换器(DLCT)网络,结合传统网格特征和目标检测网络提取的描述性区域特征,利用双向自注意力和局部约束交叉关注模块来加强区域和网格特征间的语义语境关系,进一步提高图像字幕生成的性能,并在 MS-COCO 数据集上达到新的最先进性能。
Jan, 2021
本研究提出一种深度耦合的卷积 - Transformer 框架用于高性能视频人员重识别,包括特征提取、空间互补学习、时间互补学习以及自蒸馏训练策略,并取得了更好的性能。
Apr, 2023
本文提出了一种基于卷积神经网络的 Deep Dense Face Detector (DDFD) 方法,不仅不需要姿态或者地标注释,而且能够探测多个视角下人脸的位置,并且表现出与其他方法相当或优于其他更为复杂的方法。
Feb, 2015
该研究提出了一种新颖的用于图像检索的深度空间匹配方法。该方法利用卷积神经网络激活函数提取图像描述符,同时采用一组局部特征来近似稀疏的三维激活张量,从而实现对张量最优对齐的稳健匹配,并在不需要任何网络修改、额外的网络层或训练、视觉聚类的情况下实现图像检索。该方法在多个基准测试中实现了最先进的性能。
May, 2019