剥离式汇聚:重新考虑场景解析的空间汇聚
本研究提出了 SPP-net 结构,通过空间金字塔池化策略,消除了深度卷积神经网络所需的特定输入图像大小的限制,可生成固定长度特征表示,显著提高了基于 CNN 的图像分类和目标检测方法的准确性,ILSVRC 竞赛中名列前茅。
Jun, 2014
本文介绍了一种利用基于不同区域的上下文聚合和金字塔场景分割网络的全局上下文信息的方法,以进行场景分割任务,并在各种数据集上取得了最先进的性能表现。该方法在 PASCAL VOC 2012 基准和 Cityscapes 基准数据集上创造了新的记录。
Dec, 2016
该论文提出了一种无需使用空间信息的新型池化方法,可以学习图像序列的特征软聚类,从而改进特征的时间相干性,且在图像分类任务上表现优异。
Jan, 2013
提出了一种新颖的基于超像素的多视角卷积神经网络,通过利用同一场景的其他视角信息生成单个图像的高质量分割,并且利用光流和基于图像边界的超像素计算区域对应关系,提出了一种新颖的时空池化层对空间和时间信息进行聚合,实现对图像的分割。经过对 NYU-Depth-V2 数据集和 SUN3D 数据集的评估,与各种单视图和多视图方法相比,不仅有严格的改进,同时也表明在多视图和单视图预测时利用标记帧的好处。
Apr, 2016
本文介绍了一种名为 Spatial CNN (SCNN) 的神经网络,该网络利用了基于特征图的层间切片卷积来实现像素之间的跨行列信息传递,从而加强了卷积神经网络 (CNN) 学习结构输出的能力,特别适用于具有强空间关系但较少外表线索的目标识别任务,例如交通车道检测。实验结果表明,与传统的 RNN 和 MRF+CNN(MRFNet)相比,SCNN 可显著提高车道检测数据集的准确度。
Dec, 2017
提出了一种名为 Strip-MLP 的新方法,通过引入 Strip MLP 层、CGSMM 模块和 LSMM 模块,增强了令牌交互的能力,改善了深层次特征的空间表达能力,并在小型数据集上显著提高了 MLP 模型的性能。
Jul, 2023
本文挑战了将三维卷积神经网络中的空间维度通过全局池化折叠成向量会删除所有空间信息的普遍假设,并证明了基于通道维度排序编码位置信息,而语义信息大多不是。其次,我们提出了简单而有效的数据增强策略和损失函数以提高 CNN 输出的平移不变性,以及一种有效确定潜在表示中哪些通道负责编码整体位置信息或区域特定位置信息的方法。这些发现将受益于关注 CNN 特征的研究领域。
Aug, 2021
该研究提出了 ContextPool,一种自适应的注意力机制,用于增强在 transformer 模型中的自注意力机制,实现了更强的性能表现(在语言和图像基准测试中),达到了最新的研究结论,并适用于卷积神经网络进行高效的特征学习。
Jul, 2022