本文提出了一种基于语义条件动态调制机制的匹配算法,该算法依赖于句子语义来调节时间卷积操作,从而更好地对视频内容进行时间上的关联和组合,进而提高了句子与视频的匹配关系,提高了视频句子定位的准确度。
Oct, 2019
本文研究了弱监督下的视频句子时间定位问题,提出了一个两阶段模型,通过多尺度滑动窗口形成时间片段的间隔性建议,和在特征空间进行粗细匹配定位,最终在ActivityNet Captions数据集和Charades-STA数据集上取得良好的表现。
Jan, 2020
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在Charades-STA和ActivityNet Captions数据集上的表现明显优于现有方法。
Apr, 2020
本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块(CMA)和针对此任务的新回归损失函数来提高定位精度,并在Charades-STA和ActivityNet Captions数据集上超越了目前最先进的方法。
Sep, 2020
本篇论文提出了一种新型的端到端、多模态Transformer模型——GTR,通过将视频定位看作一个集合预测任务来实现,采用立方体嵌入层将原始视频转换为视觉令牌;在解码器中,采用新型的多头跨模态注意力机制来更好地融合两种模态,整个模型的优化采用Many-to-One匹配损失函数,实现了记录性能和较快的推理速度,获得更好的结果。
Sep, 2021
该论文调查了自然语言视频定位(TSGV)的基本概念和当前研究状况,并讨论了未来的研究方向,着重介绍了TSGV的多模态理解和交互技术,构建了TSGV技术的分类法,讨论了当前研究中存在的问题并分享了有前途的研究方向。
Jan, 2022
本篇论文提出了一种新的候选不受限制的方法——Fine-grained Semantic Alignment Network(FSAN),用于弱监督的Temporal Language Grounding任务,在两个广泛使用的基准测试中取得了最先进的性能。
Oct, 2022
通过提出一个新的挑战性任务Weakly-Supervised temporal Article Grounding(WSAG)和一个有效的方法DualMIL,可以在一个相关的多媒体资源(文章和视频)的不同层级之间定位相关句子。我们提出了第一个WSAG数据集YouwikHow,利用wikiHow文章和YouTube视频中的多尺度描述,并证明了DualMIL的有效性。
介绍了一种新颖的自我监督学习框架,称为等变一致性规则学习(ECRL)框架,用于解决时间句子基础性问题(TSG),并利用该框架通过自我监督方式学习更具有区分性的针对每个视频的基于帧的查询相关表示。
May, 2023
通过使用多模态信息,我们提出了一种用于处理长视频中的Temporal Sentence Grounding任务的Grounding-Prompter方法,通过引导LLM进行TSG,提高了推理能力和理解TSG任务的性能。
Dec, 2023