基于置换不变性的特征重构用于相关感知的图像集识别
本文提出了一种基于动态生成关系卷积核和聚合关系背景的关系特征变换 —— 关系自注意力 (RSA),用于视频理解。通过实验和消融研究,证明 RSA 网络在视频动作识别等领域明显优于传统卷积和自注意力网络。
Nov, 2021
本文提出了一种基于 ID-aware quality 的,用于解决人物重新识别中由噪声图像带来的问题的新型解决方案,包括 feature learning attention、feature fusion attention 等关键组成部分,实验证明该方法优于现有最先进方法。
Nov, 2019
本研究提出了一种面向大规模细粒度图像检索的属性感知哈希网络,通过生成属性感知哈希码,既能提高检索效率,又能建立哈希码和视觉属性之间的明确对应关系。在无监督的条件下,通过注意力捕获视觉表征并开发一个编码器 - 解码器结构网络的重构任务,从外观特定的视觉表征中提取高层次的属性特定向量,进一步通过特征去相关性约束来增强它们的代表性。通过保持原始实体的相似性,可以从这些属性特定向量生成所需的哈希码,从而成为属性感知的哈希码。在六个细粒度检索数据集和两个通用检索数据集上进行了全面的定量实验证明了我们模型相对于竞争方法的优越性。
Nov, 2023
本研究提出了一种基于自我监督学习的车辆重新识别方法,利用本地几何特征和全局表示来区分车辆实例,通过解释性注意力模块来提取并压缩这些特征,并在三个最流行的车辆 ReID 数据集上展示了优于现有方法的性能。
Oct, 2020
本文提出一种基于 C3D 编码器和置换不变池化的模型,针对视频的少样本动作识别任务,通过性质相似的 原始视频块以及注意力机制,使其适用于不同长度和长期依赖模式的变化,同时在 HMDB51、UCF101 和 miniMIT 数据集上表现良好。
Jan, 2020
我们引入了一种新的注意力机制,称为结构自注意力(StructSA),它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块,我们开发了结构视觉转换器(StructViT),并在图像和视频分类任务上评估其有效性,在 ImageNet-1K,Kinetics-400,Something-Something V1&V2,Diving-48 和 FineGym 数据集上取得了最先进的结果。
Apr, 2024
该研究提出了一种双通道跨模式特征学习框架,旨在保留内在空间结构并关注输入交叉模态图像对的差异,通过在一个共同的 3D 张量空间中嵌入交叉模式图像而不丢失空间结构以及通过动态比较输入图像对来提取对比特征等方式,在两个公共可用的 RGB-IR ReID 数据集上进行了广泛实验,并在全面和简化的评估模式下均优于现有的算法。
Oct, 2019
介绍了一种解决多实例学习和 3D 形状识别等问题的神经网络模型 Set Transformer,该模型使用注意力机制来模拟输入集合中元素之间的交互,并且引入了一种减少计算复杂度的基于诱导点的注意力方案,实验结果表明,在处理集合结构数据时,该模型具有比其他最新方法更高的性能表现。
Oct, 2018
本研究提出了一种元学习方法,通过关系模式中 “观察什么” 和 “关注何处” 的方式,利用自我相关表示和交叉相关关注,在图像内和图像间学习关系嵌入,以解决少样本分类问题,并在 miniImagenet、tieredImageNet、CUB-200-2011 和 CIFAR-FS 等四个少样本分类基准测试中取得了一致的改进。
Aug, 2021