端到端多模式视频时间定位
本文提出了一种多模态视频分割方法,通过语言引导的特征融合模块和多模态对齐损失函数,将视觉外观、运动信息和语言特征融合,实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明,该方法与现有方法相比具有更好的性能和泛化能力。
Apr, 2022
本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度,并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。
Sep, 2020
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR,通过将视频定位看作一个集合预测任务来实现,采用立方体嵌入层将原始视频转换为视觉令牌;在解码器中,采用新型的多头跨模态注意力机制来更好地融合两种模态,整个模型的优化采用 Many-to-One 匹配损失函数,实现了记录性能和较快的推理速度,获得更好的结果。
Sep, 2021
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
通过跨模态交互学习,以更好地利用视频中每组模态之间的互补信息来提高事件字幕生成和时间句子定位任务的性能,从而在四个标准基准数据集上取得了最先进的性能。
Jul, 2020
本文致力于通过多模态蒸馏的方式,提高仅以 RGB 帧为输入的多模态方法在行动识别方面的性能。实验表明,该方法在标准 / 组合行动识别中均明显优于基线 RGB 模型以及联合训练多种模态的方法。
Oct, 2022
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
本文研究了时空视频定位(TVG)的问题,提出了一种新的文本 - 视觉提示框架(TVP)来优化视频编码器和语言编码器,有效地加强交叉模态特征融合并提高了 TVG 的表现。
Mar, 2023