野外多模式再识别的全能框架

CVPRMay, 2024

All in One Framework for Multimodal Re-identification in the Wild

He Li, Mang Ye, Ming Zhang, Bo Du

TL;DR引入了一个新颖的多模态学习范式（称为 All-in-One），利用一个预训练的大模型作为编码器，实现了高效的多模态检索，克服了不同模态数据的挑战，同时在零样本和领域泛化情境中展示出卓越的性能。

Abstract

In re-identification (ReID), recent advancements yield noteworthy progress in both unimodal and cross-modal retrieval tasks. However, the challenge persists in developing a unified framework that could effectively handle varying multimodal data, including RGB, infrared, sketches, and t

re-identification multimodal learning paradigm all-in-one modalities domain generalization

发现论文，激发创造

可见光与红外人员再识别的模态统一网络

通过引入一个新的模态统一网络（MUN），本研究针对可见光 - 红外人员重识别（VI-ReID）中的大量跨模态差异和类内变异问题，通过动态建模模态特定和模态共享表示来提取判别特征表达，从而使所提出的方法在多个公共数据集上明显超过当前最先进的方法。

Sep, 2023

统一 IO 2：使用视觉、语言、音频和动作扩展自回归多模态模型

我们提出了 Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。通过将输入和输出（图像、文本、音频、动作和边界框等）进行分词，在共享语义空间中统一不同的模态，并使用单个编码器 - 解码器变换器模型进行处理。通过从多样化来源的大型多模态预训练语料库中使用多模态混合去噪目标对模型进行从头训练，我们提出了各种架构改进来稳定模型训练。为了学习广泛的技能，如遵循多模态指令，我们构建并在包含提示和增强的 120 个数据集的集合上进行微调。通过一个统一的模型，Unified-IO 2 在 GRIT 基准测试中实现了最先进的性能，并在超过 35 个基准测试中取得了强大的结果，包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操控。我们将所有模型发布给研究社区。

Dec, 2023

UniCat：为多模态重新识别构建更强的融合基线

多模态重新识别是一个流行的检索任务，旨在跨不同数据流重新识别对象，本研究发现现有的后期融合技术在与训练单独的模态比较时产生次优潜在表示，我们探讨了这种效应主要是由于融合使用时对个别模态的训练目标不经意地放松，他人称之为模态懒散。我们提出了一个细致的观点，即这种放松可能导致某些模态无法充分利用可用的任务相关信息，然而，对于噪声模态提供了保护屏障，防止它们过拟合到无关数据，我们的发现还表明，当与已知最佳训练技术配对时，单模态拼接（UniCat）和其他后期融合的单模态骨干集成在多个多模态 ReID 基准测试中超过了当前的最先进性能，通过揭示 “模态懒散” 的双刃剑，我们推动未来研究在平衡局部模态优势和全局表示方面。

Oct, 2023

学习用于异质人物再识别的跨模态信息瓶颈表示

通过互信息和模态一致性网络，提取具有代表性信息的模态不变身份特征，减少冗余，消除模态差异，并对关键部分进行全局 - 局部特征提取，以实现可见 - 红外人物重识别任务。

Aug, 2023

统一输入输出：视觉、语言和多模态任务的统一模型

Unified-IO 是一种模型，它可以执行各种人工智能任务，包括传统的计算机视觉任务、视觉与语言任务和自然语言处理任务，通过将每个任务的异构输入和输出转换为离散词汇令其有共同的表示方式，从而实现使用一个单一的基于 transformer 的架构，针对视觉和语言领域的 90 多个不同数据集联合训练，其能够在诸如 NYUv2-Depth、ImageNet、VQA2.0 等 16 个不同基准测试中产生强大的结果，这是第一个不需要针对特定任务进行微调即可执行所有 7 个 GRIT 基准任务的模型。

Jun, 2022

可见光 - 红外跨模态人员再识别的高效框架

本论文提出了一种四流框架，通过深度卷积神经网络中不同的输入图像表示来学习不同的特征，从而改善可见光 - 红外人员重识别系统的性能。实验结果表明，该框架在多个数据集上优于当前最先进的方法。

Jul, 2019

基于损坏的多模态数据的实时监控下的视觉 - 红外人员再识别融合

本文提出一种名为具有多种模态中间流融合（MMSF）的高效模型，用于多模态可见光红外人物再识别，旨在提高对损坏的多模态图像的鲁棒性。同时，我们还提出新的可扩展的受损数据集和策略，以提高 V-I 个人再识别系统在现实世界操作条件下的准确性与鲁棒性。

Apr, 2023

面向可见光红外人员再识别的同质化模态学习和多粒度信息探索

本文提出一种基于 Aligned Grayscale Modality (AGM) 的跨模态人员重识别方法，通过生成灰度可见光图像和风格迁移转换红外图像得到一致的数据，再结合多颗粒度特征提取网络在特征级别进行对齐，能够显著提高跨模态检索表现。

Apr, 2022

异质人员再识别综述：超越单一模态

本文综述了异构人员再识别中解决跨模态不一致性挑战的最新方法，根据应用场景将这些方法分为四个类别，描述和比较现有的数据集和模型，并从两个角度总结和比较代表性的方法，最后讨论了未来的研究方向。

May, 2019

多层次跨模态联合对齐：可见 - 红外人员再识别

提出了一种名为多层交叉模态联合对齐（MCJA）的简单而有效的方法，它通过模态对齐增强和跨模态检索损失来缩小可见光和红外图像之间的差距，从而实现人员再识别任务的跨模态图像检索。

Jul, 2023