选择相关的网络训练概念进行自动化事件检索

Sep, 2015

选择相关的网络训练概念进行自动化事件检索

Selecting Relevant Web Trained Concepts for Automated Event Retrieval

Bharat Singh, Xintong Han, Zhe Wu, Vlad I. Morariu, Larry S. Davis

TL;DR通过构建配对概念，通过消除不可能对检索有帮助的概念来修剪，该方法解决了自动概念发现和培训中出现的问题，并通过解决视觉和领域适应问题展示了在 TRECVID MED 13 数据集上相对于其他基于视觉的系统的大幅度改进。

Abstract

Complex event retrieval is a challenging research problem, especially when no training videos are available. An alternative to collecting training videos is to train a large semantic concept bank a priori. Given a text description of an event, →

event retrieval concept discovery calibration domain adaptation trecvid med 13

发现论文，激发创造

零样本事件检测的动态概念组合

该研究旨在通过零样本学习自动检测视频中的事件，使用预先训练的概念分类器并学习对应权重以提高模型效果，在多个数据集上进行的实验表明该方法优于传统方法。

Jan, 2016

EventNet: 视频复杂事件检测的大规模结构化概念库

本研究利用 WikiHow 创建了一个名为 EventNet 的大规模事件特定概念库，该库将事件组织为一个语义结构，并使用 CNN 模型和 SVM 分类器对视频内容进行特征提取和事件检索，大幅度提升检索效果。

Jun, 2015

零样本事件检测的统一嵌入和度量学习

本文提出一种基于视觉和文本模态下的事件检测与检索算法，该算法通过训练一个端到端的模型，使得文本和视觉的表示进入了一个联合空间，并且在该空间中，利用预定义的事件来表示新的事件，并实现了事件与相关视频之间的距离度量，该算法在 TRECVID Multimedia Event Detection 数据集上取得了明显的优越性能。

May, 2017

Web 搜索中的事件驱动实时检索

本文研究信息检索在实时搜索中面临的挑战，通过整合事件信息和查询，利用跨注意力机制实现时间背景的查询表示，通过多任务训练增强事件表示能力，以及通过两阶段训练和硬负采样进行模型优化，并通过实验证明本方法在时间敏感场景下显著优于现有基线方法。

Dec, 2023

视频故事嵌入：在数据稀缺时识别事件

本文提出了一种叫做 VideoStory 的语义视频表示方法，通过学习来自网络视频和其描述的嵌入来构建整个表示，同时通过多模态可预测性损失来提高描述性和可预测性，并利用术语敏感的描述性损失来识别没有例子的视频事件，从而在视频事件的少量和没有例子的识别方面提高了准确性。

Nov, 2015

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

从平行文本和视觉语料库中自动发现概念

本文提出了一种利用文本语料库和视觉语料库进行自动可视化概念发现的算法，该算法基于关联图像的视觉判别力自动筛选文本术语，并使用视觉和语义相似性将其分组成概念。通过双向图像和句子检索任务和图像标记任务说明了所发现概念的应用，结果表明发现的概念不仅显著优于几个大型手动选择的概念集，而且在检索任务中也取得了最先进的性能。

Sep, 2015

通过生成式标题和多词概念库改进用于即席视频搜索的可解释嵌入

通过构建新数据集和发展多词概念库，本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈，实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍，并将在 2016-2023 年（八年）TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%，平均约为 20%。

Apr, 2024

视频的多模态分布语义嵌入进行零样本事件检测

本文提出了一种基于多模态分布语义嵌入的零样本事件检测方法，以视频为载体，将对象和动作等概念以及其他可用形式的多模态信息嵌入到分布语义空间中，实现了自由文本事件查询、概念属性的自动确定、视频检索等功能，在 TRECVID MED 大规模多媒体事件检测挑战中验证，有效性和速度均优于目前最先进的技术水平。

Dec, 2015

SPOT！重新审视视频语言模型用于事件理解

利用网络爬取的大规模视频 - 文本对数据作为弱监督，视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题，通过提出 SPOT Prober 方法并进行实验证明，通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。

Nov, 2023