在视频中的句子引导下的活动识别
该研究提出了一个系统,可以从视频中提取事件信息,生成谓语动词,名词短语,形容词修饰语等语言单元,以描述事件中的动作、参与物体、空间关系、特征等,并需要进行事件识别以恢复对象轨迹、角色分配和身体姿势的变化。
Apr, 2012
本文提出了一种多层级的模型,早期并更紧密地集成了视觉和语言特性,用于解决从未剪辑的视频中基于文本的活动检索问题,其中包括注入文本特性以加速处理和提高性能,以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量,同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。
Apr, 2018
本研究提出了一种基于 CRM、利用句间关系建立视频片段并匹配的弱监督方法,从而解决视频活动定位中时间信息标定的问题,并在公开数据集上验证其优越性。
Jul, 2021
在视频的细粒度理解中,我们提出了一个视频 - 副词检索的框架,通过在联合嵌入空间中将视频嵌入与其匹配的组成副词 - 动作文本嵌入进行对齐。我们的方法在视频 - 副词检索的五个最新基准上实现了最新的性能,同时引入了基于 MSR-VTT Adverbs 和 ActivityNet Adverbs 数据集子集的未见副词 - 动作组合的视频 - 副词检索基准,我们的框架在将副词从视频中检索出未见的副词 - 动作组合的泛化任务上优于所有先前的工作。
Sep, 2023
该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来,并给出了一个能够利用 bounding box 的词语注释的视频描述模型,其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。
Dec, 2018
介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分,即 Charades-CG 和 ActivityNet-CG,用于测试模型的组合泛化能力,提出了一个变异的跨图推理框架来应对这一挑战。
Mar, 2022
通过引入有效的活动语法,本文提出了一种新颖的语法归纳算法,可以从动作序列数据中提取强大的无上下文语法,并开发了一种高效的广义解析器,根据归纳的语法和递归规则将帧级概率分布转化为可靠的动作序列。实验结果表明,我们的方法在两个标准基准评估 Breakfast 和 50 Salads 上在性能和可解释性方面显著提高了时序动作分割。
Dec, 2023
通过视觉和语言提示的联合生成模型,对互联网上海量的指示视频进行语义步骤解析,为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。
May, 2016