文本到视频人物检索与一个新基准

Jul, 2023

文本到视频人物检索与一个新基准

TVPR: Text-to-Video Person Retrieval and a New Benchmark

Fan Ni, Xu Zhang, Jianhui Wu, Guan-Nan Dong, Aichun Zhu...

TL;DR本研究提出了一种新的任务称为 Text-to-Video Person Retrieval (TVPR)，并构建了一个包含自然语言注释的大规模跨模态人员视频数据集 (TVPReid)，利用 Bert 获取字幕表示并研究字幕与视频表示之间的关系以揭示最相关的个人视频，并基于融合视觉和运动表示为基础进行视频表示，并提出了一个 TVPR 网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战，获得了 TVPRN 在 TVPReid 数据集上的最佳性能表现。

Abstract

Most existing methods for text-based person retrieval focus on text-to-image person retrieval. Nevertheless, due to the lack of dynamic information provided by isolated frames, the performance is hampered when the person is obscured in isolated frames or variable motion details are given in the textual description. In this paper, we propose a new task called

text-to-video person retrieval dataset network motion representation bert

发现论文，激发创造

部分相关性视频检索

本文提出了一种名为部分相关视频检索的新的文本到视频检索子任务，并将其作为多实例学习问题来解决。作者构建了一个多尺度相似性学习网络，以同时学习剪辑尺度和帧尺度下的相似性，并在三个数据集上进行了全面的实验来证明该方法的可行性，还表明该方法可以用于改进视频语料库时刻检索。

Aug, 2022

基於豐富的中文描述的原型引導型基於文本的人物檢索

通过使用文本信息从未裁剪的场景图像中同时定位和识别目标人物的文本搜索，我们提出了一个大规模基准数据集 PRW-TPS-CN，该数据集包含 47,102 个句子，与现有数据集相比提供了更多的信息，同时提供中文和英文描述，旨在减轻人物检测和基于文本的人物检索之间的不一致，并通过聚合多个文本作为文本原型来生成图像注意力图，以消除检测不一致导致的文本检索减少，实验证明了我们方法的最新性能和 PRW-TPS-CN 数据集的有效性。

Dec, 2023

无需平行图像 - 文本数据的基于文本的人物搜索

本文提出了一种基于生成 - 检索（GTR）框架的文本搜索人物图像方法（TBPS），其中通过细粒度图像字幕和噪声评分训练来生成人物图像的伪文本，实现了不需要并行图像 - 文本数据的高效搜索。实验表明，所提出的方法在多个 TBPS 基准（即 CUHK-PEDES、ICFG-PEDES 和 RSTPReid）上具有很好的性能。

May, 2023

零样本组合人物检索

提出了一种新的任务，称为组合人员检索（CPR），通过整合图像和文本信息实现目标人员的检索；通过 Zero-shot Composed Person Retrieval（ZS-CPR）方法，利用现有领域相关数据解决了高代价手动注释数据资源的问题；通过 Word4Per 框架，学习了轻量级的文本逆转网络（TINet）和基于微调的对比语言 - 图像预训练网络（CLIP）的基于文本的人员检索模型，构建了一个精细注释的图像 - 文本组合人员检索数据集（ITCPR），并在 Rank-1 和 mAP 指标下的大量实验中证明了 Word4Per 在 ZS-CPR 任务上的有效性，超过比较方法 10% 以上的性能。

Nov, 2023

半监督文本式人物搜索

基于图像标注数据有限的半监督框架下，该论文提出了一个两阶段的基本解决方案，其中生成阶段利用图像字幕模型为未标注图片生成伪文本，检索阶段则使用增广数据进行完全监督的检索学习。而引入了噪声干扰的伪文本的框架，则提出了一个增强检索模型处理噪声数据能力的噪声鲁棒检索框架。该框架结合了混合 Patch-Channel 掩蔽和噪声引导渐进式训练两个关键策略，以防止过度拟合噪声监督，并根据伪文本的噪声水平引入渐进式训练进程。在多个 TBPS 基准测试上的广泛实验表明，该框架在半监督设置下取得了可观的性能。

Apr, 2024

基于视频的顶部压缩人员再识别

提出一种基于视频特征的人员再识别框架，通过引入 top-push 约束来优化匹配度量，以便更有效地选择区分不同人的特征。实验结果表明，该方法在视频再识别中优于现有的技术。

Apr, 2016

多事件视频文本检索

本研究介绍了多事件视频 - 文本检索（MeVTR）任务，旨在解决视频内容通常包含多个事件，而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever，它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明，这个简单的框架在视频到文本和文本到视频任务中胜过其他模型，为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。

Aug, 2023

大规模视觉语言模型学习用于高效和高性能的部分相关视频检索的超级图像

提出一种高效和高性能的部分相关视频检索方法，通过使用超级图像、视觉编码和细调方法，实现了在 ActivityNet Captions 和 TVR 上的最佳性能。

Dec, 2023

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

基于注意力机制的自然语言人物检索

本文提出了一个基于注意力机制的自然语言人物检索系统，并成功应用于监控视频检索领域中，该系统使用了 Faster R-CNN 中的候选区域生成器来提取视觉特征，并利用 BLSTM 模型进行文本特征提取，将其融合后进行得分，可以更加精确地检索到所需的目标。

May, 2017