魔法令牌：多模物体重新识别中的选择多样性令牌

CVPRMar, 2024

魔法令牌：多模物体重新识别中的选择多样性令牌

Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification

Pingping Zhang, Yuhao Wang, Yang Liu, Zhengzheng Tu, Huchuan Lu

TL;DR通过 EDITOR 框架中的多模态对象 ReID 方法实现对背景的抑制、特征重提取、空间频率令牌选择和特征细化，以产生更具辨别性的特征，从而提高在复杂视觉场景中的对象再识别效果。

Abstract

Single-modal object re-identification (ReID) faces great challenges in maintaining robustness within complex visual scenarios. In contrast, multi-modal object ReID utilizes complementary information from diverse

object re-identification multi-modal learning framework token selection feature refinement

发现论文，激发创造

TOP-ReID: 多光谱物体再识别与令牌置换

多光谱目标重新识别的变压器模型方法，采用循环置换和互补重构模块来提取更具辨别性的特征。

Dec, 2023

视觉 Transformer 的多模态 Token 融合

本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法（TokenFusion），可以在保持单模态 Transformer 结构基本不变的同时，学习多模态特征之间的相关性，并超越三个典型视觉任务中的最先进方法。

Apr, 2022

学习渐进式多模态共享的转换器以实现有效的可见 - 红外人员重识别

本文提出了一种名为 PMT 的深度学习框架，它采用渐进式共享模态转换器来解决 VI-ReID 任务中复杂的模态变化问题，并对模态共享特征进行可靠度和共性分析；同时提出了一种 Discriminative Center Loss (DCL)，结合 Modality-Shared Enhancement Loss (MSEL) 来缓解大内部差异和小类间差异问题，从而更好地区分共享特征，该框架在 SYSU-MM01 和 RegDB 数据集上的表现优于现有的大多数最新状态 - of-the-art 方法。

Dec, 2022

GraFT: 渐进融合变换器用于多模态再识别

Gradual Fusion Transformer (GraFT) is proposed for multimodal Object Re-Identification (ReID), employing learnable fusion tokens to capture modality-specific and object-specific features, optimizing the ReID feature embedding space through a novel training paradigm combined with an augmented triplet loss, and demonstrating superior performance over established benchmarks while offering model size and performance balance with integrated neural network pruning.

Oct, 2023

对比学习中的多模态表示再探讨：从块和标记嵌入到有限离散标记

本文提出了一种基于 Finite Discrete Tokens (FDT) 的多模态表示方法，通过引入 FDT tokens 来代替原有的视觉片段和语言词，减小了不同语义级别和粒度间的差异，实现了更好的跨模态对齐和性能表现。

Mar, 2023

其他符号很重要：探索视觉变换器在物体再识别中的全局和局部特征

本文研究了物体再识别中全局 - 局部关系对于 Transformer 的影响，并提出了一种全局 - 局部 Transformer 模型，并基于最后几层的特征和类别信息学习了全局特征，同时结合多层局部信息来探索判别性的局部表示，在四个物体再识别基准数据集上实现了卓越的性能。

Apr, 2024

共享特定特征传递的跨模态人员重新识别

本文提出了一种新的跨模态共享专用特征传输算法（cm-SSFT），通过模型共享特征和模型特定特征的转移，包括模态自适应、对抗学习和重构增强，学习每个模态的区分性和互补共享特征。综合实验结果表明，该算法显著优于现有算法，在 SYSU-MM01 和 RegDB 数据集上分别提高了 22.5% 和 19.3% 的平均精度。

Feb, 2020

FM-ViT：面部反欺诈的灵活模态视觉变压器

本文提出了一种基于 Transformer 的框架，名为 Flexible Modal Vision Transformer (FM-ViT)，用于面部防欺骗，以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明，单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本，而且在较小的 FLOPs 和模型参数的情况下，也可以超越现有的单模态框架，并与多模态框架的性能相当。

May, 2023

深度分层特征稀疏框架对于遮挡人员重新识别的应用

通过采用分层稀疏化、非参数特征对齐知识蒸馏和噪声遮挡数据增强的方式，提出了一种名为 SUReID 的加速人员再识别框架，以减轻遮挡干扰并加快推理速度，实验证明此框架在快速推理时表现出优秀的性能。

Jan, 2024

学习用于异质人物再识别的跨模态信息瓶颈表示

通过互信息和模态一致性网络，提取具有代表性信息的模态不变身份特征，减少冗余，消除模态差异，并对关键部分进行全局 - 局部特征提取，以实现可见 - 红外人物重识别任务。

Aug, 2023