- 事件感知视频语料库时刻检索
基于 EventFormer 的视频语义检索模型,在 Video Corpus Moment Retrieval(VCMR)任务中实现了最新的成果。
- 导航教学视频的绕过方法
本研究提出了解决「视频绕道」问题的方法,通过学习视频和文本查询,检索出与之相关的视频片段,并利用基于文本的流程创建弱监督训练数据,进而在如何烹饪视频领域中实现了显著的检索和问题回答的性能提升。
- Shot2Story20K:多割视频全面理解的新基准测试
通过一个多镜头视频理解基准(Shot2Story20K)的详细镜头级标题和全面视频摘要,提供了一种更好的视频语义理解方法,包括可视化信号和人类叙述的标题,摘要,检索以及摘要生成,这将显著提升现有视频理解任务的性能,并促进了视频理解中对详细摘 - 大规模视觉语言模型学习用于高效和高性能的部分相关视频检索的超级图像
提出一种高效和高性能的部分相关视频检索方法,通过使用超级图像、视觉编码和细调方法,实现了在 ActivityNet Captions 和 TVR 上的最佳性能。
- MMCHAIN: 探索全球 - 局部时空信息以改进自监督视频哈希
通过对视频进行二进制编码可以提高检索速度并减少存储开销,本文提出了一种新的自监督视频哈希方法,通过对全局时空信息和局部时空细节的学习,生成对于运动、尺度和视点不变的哈希码。实验证明,该方法在四个视频基准数据集上优于现有方法。
- 多语种事件视频与对齐自然文本
构建了 MultiVENT 数据集,该数据集包括多语言、以事件为中心的视频,用于分析在线新闻视频的状态,并利用其构建强大、事实准确的模型,并提供了一种用于信息检索的复杂、多语言视频检索模型作为基准。
- 探索视觉检索模型中的组合和语义理解
对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验,发现对象和属性组成部分在视频理解上发挥更重要的作用,且使用预训练的图像 - 文本表示(如 CLIP)的视频检索模型具有更好的语义和组成理解能力 - 具有语义理解解释性的海洋视频检索系统
MarineVRS 是一种专为海洋领域设计的新型灵活视频检索系统,采用最先进的视觉和语言对象表示方法,可以有效准确地搜索和分析大量的水下视频数据,并包括了 Explainability 模块,该模块可输出输入查询所指的对象的分割掩模,从而使 - 一个带有阅读理解的大型跨模态视频检索数据集
提出了一种新的跨模态视频检索数据集 TextVR,它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句,并介绍了一种统一的跨模态模型,有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频 - 对话至视频检索
本文提出了一种结合结构化对话信息的对话 - 视频检索系统,使用纯文本查询可以提高检索性能,使用对话作为查询可以更进一步地提高检索性能。
- SIGIR通过自适应边缘提升视频检索
本研究提出了一种自适应边界训练机制,称为 CMGSD,通过计算正负实例的距离调整边界,以改善视频检索中的两个问题,即负样本之间的语义联系及性能下降,并利用 CMGSD 的优势在三个广泛使用的数据集上获得更好的性能。
- MMMarine Video Kit: 一种新的海洋视频数据集,用于基于内容的分析和检索
本文介绍了一个新的水下移动摄像机单拍摄视频的数据集 ——Marine Video Kit dataset,该数据集挑战了特定领域的新强大模型,并公开了一些低水平特征以及一些视觉关键帧的语义注释。此外,本文也包含了基于大量元数据和统计学的分析 - 面向文本到视频检索的语义角色感知相关性变换器
该论文提出了一种新型的 Transformer 模型,将文本和视频显式分离,通过注意力机制了解三种角色的内部和内部角色之间的相关性,以在不同级别上寻找识别特征,初步结果表明,在所有的指标中,我们的方法都超过了当前最先进的方 法,在两个指标上 - CLIP-Hitchhiker 的长视频检索指南
本文旨在将图像 - 文本模型应用于长视频检索,并通过查询打分的帧嵌入的加权平均作为时间建模有效基线,提出一种在长视频检索基准测试中表现卓越的改善方法。
- 通过问问题学习检索视频
提出了一种具备多轮对话交互能力的视频检索框架,该框架包括 AI agent、多模态问答生成器及信息指导监督器,实验表明其效果显著优于传统非交互方式的视频检索系统。
- SIGIRCenterCLIP: 用于高效文本 - 视频检索的 Token 聚类
本文介绍了 CenterCLIP,它是一种新的视频标记聚类算法,在减少多余的视频标记、提高视频与文本表示的语义对齐方面表现优异,并取得了比现有最先进方法更好的结果
- MM视频检索中的否定理解学习
本研究使用现有数据集 (VATEX, MSR-VTT) 重新构建评估协议,提出了一种基于学习的方法来训练具有否定意义的视频检索模型,该方法通过部分否定原标题来为特定训练视频构建软负标题,然后计算三元组的双向约束损失,将这个辅助损失加权到标准 - WWW高效交叉视角视频检索的混合对比量化方法
本研究提出了用于跨视图视频检索的混合对比量化(HCQ)方法,该方法通过引入 transformers 来学习粗粒度和细粒度量化,并在跨视图的多个细粒度层次上进行不对称量化对比学习(AQ-CL)以对齐文本和视频。 HCQ 方法在存储和计算方面 - ECCV多查询视频检索
本篇论文主要探讨了多查询视频检索技术,可以有效弥补现有数据集中存在的不完善的注释问题,并提出了多个优化方法,以提高模型的检索能力及泛化性。
- CVPR使用自由形式的文本查询进行手语视频检索
本文介绍了一种通过迭代学习的 SPOT-ALIGN 框架来改善印式手语检索与识别的效果,该框架利用大规模的美式手语数据集 How2Sign,使用交叉模态嵌入技术以及自由文本查询来挖掘手语视频集合并且解决标注数据不足的问题。