iQIYI-VID: 一个大规模的多模态人物识别数据集
本文针对视频中的角色聚类进行多模态高精度聚类算法和视频角色聚类数据集的引入,旨在解决当前的人脸聚类局限性,为角色层次的推理提供更多线索,并在所有现有数据集上取得了新的最新成果。
May, 2021
本研究主要研究基于视频的跨模态人员重新识别方法。通过构建一个视频 RGB-IR 数据集,证明了在 RGB-IR 人员重新识别中,视频到视频的匹配非常重要。此外,还提出了一种新的方法,该方法不仅将两种模态投射到模态不变的子空间中,还提取了时间内存以实现运动不变性。
Aug, 2022
本研究提出了一种可匹配可见光和红外相机捕捉的人物的可视红外人物再识别方法(VI-ReID),旨在实现 24 小时监控系统中的人物检索和跟踪。通过构建大规模 VI-ReID 数据集 BUPTCampus,本研究为该领域的进一步研究提供了基础,并通过应用生成对抗网络(GAN)和课程学习等方法,取得了显著优越的实验结果。
Nov, 2023
本文提出了一种在线人员搜索框架,它采用多模态记忆库作为人员识别的基础,并通过强化学习获得策略进行动态更新。实验结果表明,该方法不仅实现了在线模式下的显著改进,而且胜过了离线方法。
Aug, 2020
本文提出一种名为 具有多种模态中间流融合(MMSF)的高效模型,用于多模态可见光红外人物再识别,旨在提高对损坏的多模态图像的鲁棒性。同时,我们还提出新的可扩展的受损数据集和策略,以提高 V-I 个人再识别系统在现实世界操作条件下的准确性与鲁棒性。
Apr, 2023
多模态人物识别中的动态身份引导注意力网络(DIAN)旨在通过挖掘身份引导和模态一致的嵌入来解决交叉模态差异的问题。实验结果表明,DIAN 在 SYSU-MM01 和 RegDB 数据集上取得了最先进的性能。
May, 2024
本文介绍了一个 Mobile Identity Document Video 数据集 (MIDV-500),其中包含来自 50 个不同身份证件类型的 500 个视频剪辑,提供了地面真实性,方便进行广泛的文档分析问题的研究,同时给出了人脸检测、文字行识别和文档域数据抽取的评估结果。
Jul, 2018
本文介绍了 InternVid,一个大规模的以视频为中心的多模态数据集,旨在学习强大且可转移的视频 - 文本编码,在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集,并使用大型语言模型,展示了其在学习大规模视频 - 语言编码中的效力。
Jul, 2023
提出了一个包含 83 个面部属性注释的大规模高质量视频数据集,名为 CelebV-HQ,该数据集中包含 35666 个视频剪辑以及 15653 个身份,其可用于模型的训练与验证,通过无条件视频生成和视频面部属性编辑验证其实用性和潜力,并展示了数据集的多样性和时间连续性。
Jul, 2022
本文提出一种专门针对可见光 - 红外多模态下的数据增强方法,可以减小在复杂场景下 RGB 和 IR 图像损坏的影响,鼓励模态之间的协作并加强泛化能力,结果表明采用该策略训练的 V-I ReID 模型可以在多个数据集上胜过未进行数据增强的模型。
Nov, 2022