iQIYI-VID: 一个大规模的多模态人物识别数据集

Nov, 2018

iQIYI-VID: 一个大规模的多模态人物识别数据集

iQIYI-VID: A Large Dataset for Multi-modal Person Identification

Yuanliu Liu, Bo Peng, Peipei Shi, He Yan, Yong Zhou...

TL;DR本文引入了 iQIYI-VID 数据集，它是用于多模式人物识别的最大视频数据集，由 600K 个 5,000 名名人的视频剪辑组成，这些视频来自于各种类型的在线视频。通过实验结果表明，多模态注意模块融合的多模态特征可以显著提高人物识别的准确性。

Abstract

Person identification in the wild is very challenging due to great variation in poses, face quality, clothes, makeup and so on. Traditional research, such as face recognition, person re-identification, and

multi-modal person identification iqiyi-vid dataset face recognition person re-identification speaker recognition

发现论文，激发创造

多模态视频人体聚类：面部、身体、声音

本文针对视频中的角色聚类进行多模态高精度聚类算法和视频角色聚类数据集的引入，旨在解决当前的人脸聚类局限性，为角色层次的推理提供更多线索，并在所有现有数据集上取得了新的最新成果。

May, 2021

基于视频的可见光与红外人员再识别学习模态不变性和时间记忆

本研究主要研究基于视频的跨模态人员重新识别方法。通过构建一个视频 RGB-IR 数据集，证明了在 RGB-IR 人员重新识别中，视频到视频的匹配非常重要。此外，还提出了一种新的方法，该方法不仅将两种模态投射到模态不变的子空间中，还提取了时间内存以实现运动不变性。

Aug, 2022

基于视频的可见光红外人员再识别与辅助样本

本研究提出了一种可匹配可见光和红外相机捕捉的人物的可视红外人物再识别方法（VI-ReID），旨在实现 24 小时监控系统中的人物检索和跟踪。通过构建大规模 VI-ReID 数据集 BUPTCampus，本研究为该领域的进一步研究提供了基础，并通过应用生成对抗网络（GAN）和课程学习等方法，取得了显著优越的实验结果。

Nov, 2023

在线视频多模态人员搜索

本文提出了一种在线人员搜索框架，它采用多模态记忆库作为人员识别的基础，并通过强化学习获得策略进行动态更新。实验结果表明，该方法不仅实现了在线模式下的显著改进，而且胜过了离线方法。

Aug, 2020

基于损坏的多模态数据的实时监控下的视觉 - 红外人员再识别融合

本文提出一种名为具有多种模态中间流融合（MMSF）的高效模型，用于多模态可见光红外人物再识别，旨在提高对损坏的多模态图像的鲁棒性。同时，我们还提出新的可扩展的受损数据集和策略，以提高 V-I 个人再识别系统在现实世界操作条件下的准确性与鲁棒性。

Apr, 2023

动态身份引导注意力网络用于可见 - 红外人物再识别

多模态人物识别中的动态身份引导注意力网络（DIAN）旨在通过挖掘身份引导和模态一致的嵌入来解决交叉模态差异的问题。实验结果表明，DIAN 在 SYSU-MM01 和 RegDB 数据集上取得了最先进的性能。

May, 2024

MIDV-500: 移动设备上身份证件分析和识别的视频流数据集

本文介绍了一个 Mobile Identity Document Video 数据集 (MIDV-500)，其中包含来自 50 个不同身份证件类型的 500 个视频剪辑，提供了地面真实性，方便进行广泛的文档分析问题的研究，同时给出了人脸检测、文字行识别和文档域数据抽取的评估结果。

Jul, 2018

InternVid：大规模视频文本数据集，用于多模式理解和生成

本文介绍了 InternVid，一个大规模的以视频为中心的多模态数据集，旨在学习强大且可转移的视频 - 文本编码，在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集，并使用大型语言模型，展示了其在学习大规模视频 - 语言编码中的效力。

Jul, 2023

CelebV-HQ：一个大规模的视频人脸属性数据集

提出了一个包含 83 个面部属性注释的大规模高质量视频数据集，名为 CelebV-HQ，该数据集中包含 35666 个视频剪辑以及 15653 个身份，其可用于模型的训练与验证，通过无条件视频生成和视频面部属性编辑验证其实用性和潜力，并展示了数据集的多样性和时间连续性。

Jul, 2022

多模态数据增强在受损数据下的可见 - 红外人员再识别

本文提出一种专门针对可见光 - 红外多模态下的数据增强方法，可以减小在复杂场景下 RGB 和 IR 图像损坏的影响，鼓励模态之间的协作并加强泛化能力，结果表明采用该策略训练的 V-I ReID 模型可以在多个数据集上胜过未进行数据增强的模型。

Nov, 2022