在视频中的句子引导下的活动识别

CVPRAug, 2013

在视频中的句子引导下的活动识别

Seeing What You're Told: Sentence-Guided Activity Recognition In Video

N. Siddharth, Andrei Barbu, Jeffrey Mark Siskind

TL;DR该研究通过引入由语法指导的多模事件识别框架，进一步探讨了事件的构成结构与语言的构成结构如何相互影响，以及这种影响如何影响视觉行为识别，包括指导注意力、产生句子描述和查询视频等三个方面。

Abstract

We present a system that demonstrates how the compositional structure of events, in concert with the compositional structure of

compositional structure events language action recognition multi-modal integration

发现论文，激发创造

视频输入句子输出

该研究提出了一个系统，可以从视频中提取事件信息，生成谓语动词，名词短语，形容词修饰语等语言单元，以描述事件中的动作、参与物体、空间关系、特征等，并需要进行事件识别以恢复对象轨迹、角色分配和身体姿势的变化。

Apr, 2012

多层次语言和视觉融合的文本到视频检索

本文提出了一种多层级的模型，早期并更紧密地集成了视觉和语言特性，用于解决从未剪辑的视频中基于文本的活动检索问题，其中包括注入文本特性以加速处理和提高性能，以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量，同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。

Apr, 2018

通过观察和叙述学习动作分割

应用叙述指导下的生成式分段模型，重点研究在无监督和弱监督设置中进行视频动作分割，发现任务结构和叙述语言在训练中被用作监督来源有利于提高分割质量.

May, 2020

视频活动定位中的跨句子时间和语义关系

本研究提出了一种基于 CRM、利用句间关系建立视频片段并匹配的弱监督方法，从而解决视频活动定位中时间信息标定的问题，并在公开数据集上验证其优越性。

Jul, 2021

基于逻辑编程的活动识别方法

使用事件演算法识别基于视频内容的短期活动，进而推断长期预定义活动的系统及其详细评估结果。

May, 2009

利用组合副词 - 动作嵌入进行视频副词检索

在视频的细粒度理解中，我们提出了一个视频 - 副词检索的框架，通过在联合嵌入空间中将视频嵌入与其匹配的组成副词 - 动作文本嵌入进行对齐。我们的方法在视频 - 副词检索的五个最新基准上实现了最新的性能，同时引入了基于 MSR-VTT Adverbs 和 ActivityNet Adverbs 数据集子集的未见副词 - 动作组合的视频 - 副词检索基准，我们的框架在将副词从视频中检索出未见的副词 - 动作组合的泛化任务上优于所有先前的工作。

Sep, 2023

基于实况视频描述

该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来，并给出了一个能够利用 bounding box 的词语注释的视频描述模型，其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。

Dec, 2018

结构化变分跨图对应学习的组合时序对齐

介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分，即 Charades-CG 和 ActivityNet-CG，用于测试模型的组合泛化能力，提出了一个变异的跨图推理框架来应对这一挑战。

Mar, 2022

时间动作分割的活动语法

通过引入有效的活动语法，本文提出了一种新颖的语法归纳算法，可以从动作序列数据中提取强大的无上下文语法，并开发了一种高效的广义解析器，根据归纳的语法和递归规则将帧级概率分布转化为可靠的动作序列。实验结果表明，我们的方法在两个标准基准评估 Breakfast 和 50 Salads 上在性能和可解释性方面显著提高了时序动作分割。

Dec, 2023

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016