Sep, 2023

基于基础模型和形式验证的规范驱动视频搜索

TL;DR使用视觉和语言模型以及形式方法,本研究论文提出了一种自动高效搜索感兴趣视频事件的方法,通过将文本描述转换为有限轨迹的线性时态逻辑(LTLf)并构建视频信息的自动机,然后使用形式方法验证自动机是否满足规范,如果满足则将相关视频片段添加到搜索结果中。本研究通过定性和定量分析展示了该方法在搜索隐私敏感视频和自动驾驶数据集方面的潜力,并达到了超过 90% 的搜索精度。