基于多模态特征的文本视频分割运动建模

CVPRApr, 2022

基于多模态特征的文本视频分割运动建模

Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation

Wangbo Zhao, Kai Wang, Xiangxiang Chu, Fuzhao Xue, Xinchao Wang...

TL;DR本文提出了一种多模态视频分割方法，通过语言引导的特征融合模块和多模态对齐损失函数，将视觉外观、运动信息和语言特征融合，实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明，该方法与现有方法相比具有更好的性能和泛化能力。

Abstract

text-based video segmentation aims to segment the target object in a video based on a describing sentence. Incorporating motion information from optical flow maps with appearance and linguistic modalities is cruc

text-based video segmentation motion information multi-modal video transformer language-guided feature fusion module multi-modal alignment loss

发现论文，激发创造

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

CVPR 2024 PVUW 工作坊 MeViS 赛道冠军解决方案：运动表情引导的视频分割

提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法，着重于增强跨模态特征交互，在视频目标分割中取得了显著的改进效果。

Jun, 2024

文本视频分割的演员和行为模块化网络

本文提出了一种基于文本的视频分割方法，通过引入一个新的演员和动作的模块化网络，解决了语义不对称问题，同时提出了时间提案聚合机制，获得了单帧分割和全视频分割的最先进性能。

Nov, 2020

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017

通过 MildTriple Loss 实现运动和文本的跨模态检索

本文提出了一种基于 transformer 和 triplet loss 的 cross-modal retrieval 模型来解决 human motion sequences 和 text 之间的检索问题，并提出了一种新的 MildTriple Loss 来减少 semantic conflicts 的影响，经实验证明，在 HumanML3D 和 KIT Motion-Language 数据集上具有较高的检索召回率。

May, 2023

探索基于光流引导的运动和检测的外观在长时句子理解中的应用

本文提出了一种运用运动和外观引导的三维语义推理网络（MA3SRN）实现时序句子定位，该网络能准确地建模相邻帧之间的活动，并获得在三个具有挑战性的数据集上的最新最好成果。

Mar, 2022

多模态视频主题分割与双对比领域适应

基于多模态的视频主题分段器利用视频转录和帧，结合跨模态注意机制，提出了一种双对比学习框架，从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明，我们的解决方案明显优于基准方法，无论是准确度还是可转移性，在域内和跨领域设置下都有显著提升。

Nov, 2023

视频广告理解的多模态框架

该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统，包括场景分割和多模态标记两个任务，通过视觉和文本特征相结合的方法，在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。

Aug, 2021

基于双图和门控融合的聚合特征视频字幕生成

本文提出了基于双图和门控融合的视频字幕模型，通过使用两种类型的图来生成视频内容的特征表示，并利用门控融合来进一步理解这些不同层次的信息，以实现对复杂视频对象相互作用的全面理解。在 MSVD 和 MSR-VTT 这两个常用数据集上进行的实验表明，我们提出的方法具有最先进的性能。

Aug, 2023