选择相关的网络训练概念进行自动化事件检索
本研究利用 WikiHow 创建了一个名为 EventNet 的大规模事件特定概念库,该库将事件组织为一个语义结构,并使用 CNN 模型和 SVM 分类器对视频内容进行特征提取和事件检索,大幅度提升检索效果。
Jun, 2015
本文提出一种基于视觉和文本模态下的事件检测与检索算法,该算法通过训练一个端到端的模型,使得文本和视觉的表示进入了一个联合空间,并且在该空间中,利用预定义的事件来表示新的事件,并实现了事件与相关视频之间的距离度量,该算法在 TRECVID Multimedia Event Detection 数据集上取得了明显的优越性能。
May, 2017
本文研究信息检索在实时搜索中面临的挑战,通过整合事件信息和查询,利用跨注意力机制实现时间背景的查询表示,通过多任务训练增强事件表示能力,以及通过两阶段训练和硬负采样进行模型优化,并通过实验证明本方法在时间敏感场景下显著优于现有基线方法。
Dec, 2023
本文提出了一种叫做 VideoStory 的语义视频表示方法,通过学习来自网络视频和其描述的嵌入来构建整个表示,同时通过多模态可预测性损失来提高描述性和可预测性,并利用术语敏感的描述性损失来识别没有例子的视频事件,从而在视频事件的少量和没有例子的识别方面提高了准确性。
Nov, 2015
该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
本文提出了一种利用文本语料库和视觉语料库进行自动可视化概念发现的算法,该算法基于关联图像的视觉判别力自动筛选文本术语,并使用视觉和语义相似性将其分组成概念。 通过双向图像和句子检索任务和图像标记任务说明了所发现概念的应用,结果表明发现的概念不仅显著优于几个大型手动选择的概念集,而且在检索任务中也取得了最先进的性能。
Sep, 2015
通过构建新数据集和发展多词概念库,本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈,实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍,并将在 2016-2023 年(八年)TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%,平均约为 20%。
Apr, 2024
本文提出了一种基于多模态分布语义嵌入的零样本事件检测方法,以视频为载体,将对象和动作等概念以及其他可用形式的多模态信息嵌入到分布语义空间中,实现了自由文本事件查询、概念属性的自动确定、视频检索等功能,在 TRECVID MED 大规模多媒体事件检测挑战中验证,有效性和速度均优于目前最先进的技术水平。
Dec, 2015
利用网络爬取的大规模视频 - 文本对数据作为弱监督,视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题,通过提出 SPOT Prober 方法并进行实验证明,通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。
Nov, 2023