文本到视频检索的框架选择的实证研究
为了提高视频检索的性能,我们提出了一种名为 ViSERN 的可视化语义增强的推理网络,该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征,并聚合这些特征以形成帧级特征, 以求衡量视频和文本之间的相似性。
Jun, 2020
本文提出了一种名为部分相关视频检索的新的文本到视频检索子任务,并将其作为多实例学习问题来解决。作者构建了一个多尺度相似性学习网络,以同时学习剪辑尺度和帧尺度下的相似性,并在三个数据集上进行了全面的实验来证明该方法的可行性,还表明该方法可以用于改进视频语料库时刻检索。
Aug, 2022
本研究介绍了一种新的多模式检索数据集,名为电视节目检索 (TVR),它结合了视频和相关的字幕文本,其中包含 109K 个查询,每个查询与一个精确的时间窗口相关联,并且具有指示查询与视频或字幕相关性的查询类型标签。我们还提出了多模态时刻检索任务的一种新型跨模态时刻定位网络 (XML),该模型采用了一种新颖的卷积起始和结束检测器 (ConvSE) 模型,具有更好的效率和性能。同时,我们还收集了描述 TVR 中各个标注时刻的相关信息,形成了一个新的多模式字幕数据集 TVC,两个数据集均可以公开获取。
Jan, 2020
本研究提出了一种新的任务称为 Text-to-Video Person Retrieval (TVPR),并构建了一个包含自然语言注释的大规模跨模态人员视频数据集 (TVPReid),利用 Bert 获取字幕表示并研究字幕与视频表示之间的关系以揭示最相关的个人视频,并基于融合视觉和运动表示为基础进行视频表示,并提出了一个 TVPR 网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战,获得了 TVPRN 在 TVPReid 数据集上的最佳性能表现。
Jul, 2023
通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近 50 倍。
Jan, 2024
使用一种称为 RAP 的稀疏且相关的 AdaPter 模型,通过在少数参数化层上进行预训练模型的微调,以提供高效的文本视频检索。RAP 配备了两个必要特征:时间稀疏性和相关性建模。通过引入低秩调制模块和异步自注意力机制,RAP 能够在四个文本视频检索数据集上表现出优越或可比较的性能。
May, 2024
该研究利用神经网络诱导的文本视觉语义嵌入空间,将查询相关汇总作为视频帧子集选择问题进行提出,该方法在多个方面优于先前的技术,并引入具有多样性和查询特定相关性标签的新数据集进行模型训练和测试。
May, 2017
本文提出一种基于强化学习的方法来加速教学视频,该方法可以自适应地选择不相关的帧以缩小输入视频,同时使用 Visually-guided Document Attention Network(VDAN)产生高度判别的嵌入空间来表示文本和视觉数据,实验证明本方法在视频段水平上实现了最佳的 F1 Score 和覆盖率。
Mar, 2020
本文主攻文本到视频检索任务中的视频表示学习,在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法,经实验证明,在三个数据集上取得了最新的最优性能。
Jan, 2022
本研究介绍了多事件视频 - 文本检索(MeVTR)任务,旨在解决视频内容通常包含多个事件,而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever,它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明,这个简单的框架在视频到文本和文本到视频任务中胜过其他模型,为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。
Aug, 2023