自我中心的文本 - 视频检索挑战概述
改进和开发新的网络架构是文本 - 视频检索的研究热点。然而,现有的方法可能存在学习和推理偏差问题,本研究首次尝试探索修剪视频剪辑的训练和测试集之间的时间偏差,并提出因果去偏方法,通过大量实验验证了该方法的有效性。
Sep, 2023
从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型,它能够自动检索语义相关的第三人称指导视频,以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块,并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明,跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考,EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。
Jan, 2024
本研究旨在利用一种新的方法,即多态输入的注意力循环网络,来描述自我中心影像序列的故事情节,并发布了第一个自我中心影像序列描述数据集,该方法的表现优于传统的注意力编码器 - 解码器方法。
Apr, 2017
该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
为了有效地选择文本到视频检索过程中最具代表性的帧并提高检索效率,该论文通过对现有方法的分类和分析,提出了两种新的帧选择方法,并从多个 TVR 基准测试得出结论:适当的帧选择可以显著提高检索效果。
Nov, 2023
本文提出了一种基于语义相似性的视频检索方法,它允许多个视频和标题被视为同等相关,并且排名的顺序不影响检索性能比较,同时,它还提出了多种估计语义相似性的方法,以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。
Mar, 2021
为了提高视频检索的性能,我们提出了一种名为 ViSERN 的可视化语义增强的推理网络,该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征,并聚合这些特征以形成帧级特征, 以求衡量视频和文本之间的相似性。
Jun, 2020
我们提出了 DrVideo,它是一个基于文档检索的系统,用于长视频理解。我们的关键思想是将长视频理解问题转化为长文档理解任务,以有效利用大型语言模型的能力。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息,然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据,并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。大量的实验证实了我们方法的有效性。DrVideo 在长视频基准测试上的准确性优于现有的最先进方法,在 EgoSchema 基准测试上提高了 3.8%的准确性,在 MovieChat-1K break 模式上提高了 17.9%,在 MovieChat-1K 全球模式上提高了 38.0%,在 LLama-Vid QA 数据集上提高了 30.2%(超过 60 分钟)。
Jun, 2024
通过修正误标的负样本,我们评测了三种模型在两个标准测试集上的表现,发现在最佳模型上,修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和,同时我们推荐以样本抽样方式缓解标注数据成本,对未来的 text-to-video retrieval 基准测试提出了建议。
Oct, 2022