基于基础模型和形式验证的规范驱动视频搜索

Sep, 2023

基于基础模型和形式验证的规范驱动视频搜索

Specification-Driven Video Search via Foundation Models and Formal Verification

Yunhao Yang, Jean-Raphaël Gaglione, Sandeep Chinchali, Ufuk Topcu

TL;DR使用视觉和语言模型以及形式方法，本研究论文提出了一种自动高效搜索感兴趣视频事件的方法，通过将文本描述转换为有限轨迹的线性时态逻辑（LTLf）并构建视频信息的自动机，然后使用形式方法验证自动机是否满足规范，如果满足则将相关视频片段添加到搜索结果中。本研究通过定性和定量分析展示了该方法在搜索隐私敏感视频和自动驾驶数据集方面的潜力，并达到了超过 90% 的搜索精度。

Abstract

The increasing abundance of video data enables users to search for events of interest, e.g., emergency incidents. Meanwhile, it raises new concerns, such as the need for preserving privacy. Existing approaches to video search require either manual inspection or a deep learning model wi

video search privacy preservation vision and language models automaton linear temporal logic

发现论文，激发创造

神经符号化视频搜索

使用视觉语言模型进行语义理解，通过状态机和时间逻辑进行长期演变的事件推理，提高了复杂事件识别的 F1 得分。

Mar, 2024

SPOT！重新审视视频语言模型用于事件理解

利用网络爬取的大规模视频 - 文本对数据作为弱监督，视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题，通过提出 SPOT Prober 方法并进行实验证明，通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。

Nov, 2023

用多模态查询在视频中定位事件

本研究介绍了一个用于视频事件定位的多模态查询基准（ICQ），该基准以多模态语义查询为输入，包括一个描述事件的参考图像和一个用于调整图像语义的修正文本。通过对 4 种风格的参考图像和 5 种类型的修正文本进行系统评估，我们提出了 3 种适应方法，并评估了 10 种尺度的现有模型。我们认为这个基准是探索视频事件定位中多模态查询的初步步骤。

Jun, 2024

学习在大规模视频数据中本地化时间事件

该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题，一种是采用梯度提升决策树模型，另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合，在第三届 Youtube-8M 视频识别挑战中获得第 5 名。

Oct, 2019

元学习视觉语言模型以发现视频中的命名实例

提出了在大规模视觉 - 语言模型基础上，通过元学习实现个性化视频搜索的方法，其中用于表示每个实例的嵌入同时结合了共享和全局类别特征，并在 This-Is-My 和 DeepFashion2 数据集上展示出超过现有技术 15% 的相对改进。

Jun, 2023

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

基于事件理解的视频数据集综述

通过调查 105 个需要事件理解能力的视频数据集，我们考虑它们对视频中鲁棒事件理解研究的贡献，并评估在这一研究领域中提出的视频事件提取任务，提出了基于调查结果的数据集策划和任务构建建议，特别强调视频事件的时间特性和视觉内容的歧义性。

Jun, 2024

零样本事件检测的统一嵌入和度量学习

本文提出一种基于视觉和文本模态下的事件检测与检索算法，该算法通过训练一个端到端的模型，使得文本和视觉的表示进入了一个联合空间，并且在该空间中，利用预定义的事件来表示新的事件，并实现了事件与相关视频之间的距离度量，该算法在 TRECVID Multimedia Event Detection 数据集上取得了明显的优越性能。

May, 2017

视频的多模态分布语义嵌入进行零样本事件检测

本文提出了一种基于多模态分布语义嵌入的零样本事件检测方法，以视频为载体，将对象和动作等概念以及其他可用形式的多模态信息嵌入到分布语义空间中，实现了自由文本事件查询、概念属性的自动确定、视频检索等功能，在 TRECVID MED 大规模多媒体事件检测挑战中验证，有效性和速度均优于目前最先进的技术水平。

Dec, 2015

半参数视频文本生成

通过对数据存储库中的视频采用非参数帧检索器进行预处理，将其与查询一起进行聚合，从而有效地表示长时间未修剪的视频的可扩展视频 - 语言建模新视角。在四个视频 - 语言数据集上达到了新的技术水平。

Jan, 2023