视频中基于语义条件的时序句子 grounding 的动态调节
本文研究了弱监督下的视频句子时间定位问题,提出了一个两阶段模型,通过多尺度滑动窗口形成时间片段的间隔性建议,和在特征空间进行粗细匹配定位,最终在ActivityNet Captions数据集和Charades-STA数据集上取得良好的表现。
Jan, 2020
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在Charades-STA和ActivityNet Captions数据集上的表现明显优于现有方法。
Apr, 2020
本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块(CMA)和针对此任务的新回归损失函数来提高定位精度,并在Charades-STA和ActivityNet Captions数据集上超越了目前最先进的方法。
Sep, 2020
提出了一种名为记忆引导语义学习网络(MGSL-Net)的内存增强网络来学习和记忆 TSG 任务中常见且罕见的内容,通过动态地关联常见和罕见情况,缓解模型忘记的问题,并在测试阶段通过检索存储的记忆来增强罕见情况,实现更好的泛化。
Jan, 2022
本文提出一种基于常识感知的跨模态对齐框架,通过从语料库中提取结构化语义信息,设计跨模态交互模块获得桥接式视觉和文本特征,并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上,证明该方法能够以高速运行,且表现优于现有的方法。
Apr, 2022
本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题,并将其应用于 temporal sentence grounding 任务,通过跨模态平行变压器解码器将其编码为最终的基础。
Aug, 2022
本研究针对压缩视频展开了时间句子引导的任务,并提出了一种全新的三分支压缩域空时融合框架(TCSF)来提取和聚合低级视觉特征以有效地进行时间句子引导。实验结果表明,TCSF较其他最先进的方法具有更好的性能,并具有更低的复杂度。
Mar, 2023
介绍了一种新颖的自我监督学习框架,称为等变一致性规则学习(ECRL)框架,用于解决时间句子基础性问题(TSG),并利用该框架通过自我监督方式学习更具有区分性的针对每个视频的基于帧的查询相关表示。
May, 2023
本研究解决了现有视频时间定位模型依赖特定数据集进行训练并普遍缺乏泛化能力的问题。提出的无训练视频时间定位方法通过利用大规模预训练模型的能力,分析查询文本中的多个子事件及其时间关系,使得该方法在零-shot视频时间定位任务上表现优越,并在跨数据集和OOD情境下展现出更好的泛化能力。
Aug, 2024