魔法令牌:多模物体重新识别中的选择多样性令牌
本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法(TokenFusion),可以在保持单模态 Transformer 结构基本不变的同时,学习多模态特征之间的相关性,并超越三个典型视觉任务中的最先进方法。
Apr, 2022
本文提出了一种名为 PMT 的深度学习框架,它采用渐进式共享模态转换器来解决 VI-ReID 任务中复杂的模态变化问题,并对模态共享特征进行可靠度和共性分析;同时提出了一种 Discriminative Center Loss (DCL),结合 Modality-Shared Enhancement Loss (MSEL) 来缓解大内部差异和小类间差异问题,从而更好地区分共享特征,该框架在 SYSU-MM01 和 RegDB 数据集上的表现优于现有的大多数最新状态 - of-the-art 方法。
Dec, 2022
Gradual Fusion Transformer (GraFT) is proposed for multimodal Object Re-Identification (ReID), employing learnable fusion tokens to capture modality-specific and object-specific features, optimizing the ReID feature embedding space through a novel training paradigm combined with an augmented triplet loss, and demonstrating superior performance over established benchmarks while offering model size and performance balance with integrated neural network pruning.
Oct, 2023
本文提出了一种基于 Finite Discrete Tokens (FDT) 的多模态表示方法,通过引入 FDT tokens 来代替原有的视觉片段和语言词,减小了不同语义级别和粒度间的差异,实现了更好的跨模态对齐和性能表现。
Mar, 2023
本文研究了物体再识别中全局 - 局部关系对于 Transformer 的影响,并提出了一种全局 - 局部 Transformer 模型,并基于最后几层的特征和类别信息学习了全局特征,同时结合多层局部信息来探索判别性的局部表示,在四个物体再识别基准数据集上实现了卓越的性能。
Apr, 2024
本文提出了一种新的跨模态共享专用特征传输算法(cm-SSFT),通过模型共享特征和模型特定特征的转移,包括模态自适应、对抗学习和重构增强,学习每个模态的区分性和互补共享特征。综合实验结果表明,该算法显著优于现有算法, 在 SYSU-MM01 和 RegDB 数据集上分别提高了 22.5% 和 19.3% 的平均精度。
Feb, 2020
本文提出了一种基于 Transformer 的框架,名为 Flexible Modal Vision Transformer (FM-ViT),用于面部防欺骗,以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明,单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本,而且在较小的 FLOPs 和模型参数的情况下,也可以超越现有的单模态框架,并与多模态框架的性能相当。
May, 2023
通过采用分层稀疏化、非参数特征对齐知识蒸馏和噪声遮挡数据增强的方式,提出了一种名为 SUReID 的加速人员再识别框架,以减轻遮挡干扰并加快推理速度,实验证明此框架在快速推理时表现出优秀的性能。
Jan, 2024
通过互信息和模态一致性网络,提取具有代表性信息的模态不变身份特征,减少冗余,消除模态差异,并对关键部分进行全局 - 局部特征提取,以实现可见 - 红外人物重识别任务。
Aug, 2023