多教师知识蒸馏下视频中高效的时间句子定位
该研究旨在解决一项新颖任务 —— 流媒体视频中的时间句子定位,通过提出 TwinNet 结构和语言引导的特征压缩器,该方法在多个数据集上进行了广泛实验证明了其卓越性能。
Aug, 2023
该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况,并讨论了未来的研究方向,着重介绍了 TSGV 的多模态理解和交互技术,构建了 TSGV 技术的分类法,讨论了当前研究中存在的问题并分享了有前途的研究方向。
Jan, 2022
本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题,并将其应用于 temporal sentence grounding 任务,通过跨模态平行变压器解码器将其编码为最终的基础。
Aug, 2022
本文主要研究 Temporal Sentence Grounding in Videos,在现有的评估协议中,重新组织两个广泛使用的 TSGV 基准及引入新的评估指标 dR @ n,IoU @ m 来校准基本的 IoU 分数,进一步监控 TSGV 的进展。
Jan, 2021
提出了一种名为记忆引导语义学习网络(MGSL-Net)的内存增强网络来学习和记忆 TSG 任务中常见且罕见的内容,通过动态地关联常见和罕见情况,缓解模型忘记的问题,并在测试阶段通过检索存储的记忆来增强罕见情况,实现更好的泛化。
Jan, 2022
介绍了一种新颖的自我监督学习框架,称为等变一致性规则学习(ECRL)框架,用于解决时间句子基础性问题(TSG),并利用该框架通过自我监督方式学习更具有区分性的针对每个视频的基于帧的查询相关表示。
May, 2023
通过提出一个新的挑战性任务 Weakly-Supervised temporal Article Grounding (WSAG) 和一个有效的方法 DualMIL,可以在一个相关的多媒体资源 (文章和视频) 的不同层级之间定位相关句子。我们提出了第一个 WSAG 数据集 YouwikHow,利用 wikiHow 文章和 YouTube 视频中的多尺度描述,并证明了 DualMIL 的有效性。
Oct, 2022
通过统一视频时序定位(Video Temporal Grounding)的各种标签和任务,提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练,并获得更强的定位能力,例如零样本时序定位。对三项任务(时间区间提取、重要片段检测和视频摘要)在七个数据集上的广泛实验证明了该框架的有效性和灵活性。
Jul, 2023
本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG(D-TSG)模型,实现在常见和罕见情况下的 Temporal sentence grounding,在三个基准数据集上取得了最先进的表现。
Jul, 2022
本研究针对压缩视频展开了时间句子引导的任务,并提出了一种全新的三分支压缩域空时融合框架(TCSF)来提取和聚合低级视觉特征以有效地进行时间句子引导。实验结果表明,TCSF 较其他最先进的方法具有更好的性能,并具有更低的复杂度。
Mar, 2023