通道交互网络用于细粒度图像分类
本研究提出的互相通道(MC)损失函数具有两个组件:一个区别度组件和一个多样性组件,它们共同对特征通道进行调整,以形成针对特定类别的本地可区分区域。在四个特定数据集上的试验表明,MC 损失函数的有效性与其他近期提出的视觉分类损失相比具有明显优势。
Feb, 2020
本文提出了一种基于对比线索和对图片对之间交互的注意力方法的细粒度图像分类方法 (API-Net),使用互补特征向量来捕捉输入对中的语义差异,并通过逐步交互以注重对比线索,同时采用得分排名规则进行端到端培训,实验结果表明超越了先前最先进的方法。
Feb, 2020
该论文提出了一种结合视觉和语言的两流模型,通过深度卷积神经网络从原始图像信息中学习深度表示,并利用自然语言描述来编码区分子类的显著视觉方面,从而实现更好的分类精度。
Apr, 2017
本研究提出了 Interaction-and-Aggregation (IA) 网络结构,利用 Spatial IA 和 Channel IA 模块增强卷积神经网络对人的特征表示能力,并在三个基准数据集上验证了其在人员再识别领域的卓越性。
Jul, 2019
本研究提出 Channel Tensorization Network (CT-Net),通过将输入特征的通道维度视为 K 个子维度的乘积来分解卷积,从而轻量化计算量,有效增强不同通道的特征交互,并逐步扩大 3D receptive field,以提高视频分类准确率。在几个具有挑战性的视频基准中(如 Kinetics-400,Something-Something V1 和 V2)的实验中表明,相较于其他最新的方法,CT-Net 在准确性和效率方面表现更优。
Jun, 2021
本文提出了一个无需调整参数的多模态融合框架 ——CEN,它能动态地交换不同模态的子网络之间的通道,通过 Batch-Normalization 控制通道的重要性,同时保证交换过程的有效性和性能优化,这种方法在 RGB-D 数据的语义分割和多域输入的图像翻译等方面都取得了有益的效果,并得到了可靠的验证和优化。
Nov, 2020
本研究提出了一种基于信息生成对抗网络和对比学习的无监督细粒度图像聚类方法,旨在学习特征表示,促进数据集在嵌入空间中形成明显的聚类边界,同时最大化潜在编码与图像观测之间的互信息。实验结果表明,该方法在四个细粒度图像数据集上实现了最先进的聚类性能,同时缓解了模式崩溃现象。
Dec, 2021
RGB-T 语义分割技术在自动驾驶场景理解中起着关键作用。本研究提出了一种用于 RGB-T 语义分割的上下文感知交互网络(CAINet),通过建立交互空间来利用辅助任务和全局上下文进行显式引导学习。通过引入上下文感知的互补推理模块、全局上下文建模模块和细节聚合模块,以及特定辅助监督,对多模态特征之间的互补关系进行建模,进一步提高分割效果。对 MFNet 和 PST900 两个基准数据集进行的大量实验表明,CAINet 能够达到最先进的性能。
Jan, 2024
本研究旨在探讨 3D 群组卷积网络在视频分类网络中所能提供的计算效益,以及在设计中做出不同选择的影响。实验结果表明,分离通道交互和时空交互是提升网络准确性以及降低计算成本的好策略,3D 通道分离卷积还能够为网络提供一种正则化,我们提出的分离通道卷积神经网络(CSN)成为了一种简单且高效的技术。
Apr, 2019
本研究提出了一种在线训练框架,用于快速适应于任何通道变化,以保持模型的最佳性能,该框架将最新的深度展开方法与对抗生成网络相结合,以捕获通道的任何变化并迅速调整网络,在高动态通道上显著优于最近的神经网络模型,并在我们的实验中甚至超过静态通道的性能。
Aug, 2022