多教师知识蒸馏下视频中高效的时间句子定位

Aug, 2023

多教师知识蒸馏下视频中高效的时间句子定位

Efficient Temporal Sentence Grounding in Videos with Multi-Teacher Knowledge Distillation

Renjie Liang, Yiming Yang, Hui Lu, Li Li

TL;DR本论文提出了一个基于知识蒸馏的新型高效多教师模型（EMTM），旨在在维持高性能的同时，实现在未修剪视频中检测自然语言查询所描述的事件时间戳的挑战。

Abstract

temporal sentence grounding in videos (TSGV) aims to detect the event timestamps described by the natural language query from untrimmed videos. This paper discusses the challenge of achieving efficient computation

temporal sentence grounding in videos event timestamps efficient computation knowledge distillation multi-teacher model

发现论文，激发创造

流式视频中的时间语句定位

该研究旨在解决一项新颖任务 —— 流媒体视频中的时间句子定位，通过提出 TwinNet 结构和语言引导的特征压缩器，该方法在多个数据集上进行了广泛实验证明了其卓越性能。

Aug, 2023

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

分层本地 - 全局变压器用于时间句子定位

本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题，并将其应用于 temporal sentence grounding 任务，通过跨模态平行变压器解码器将其编码为最终的基础。

Aug, 2022

视频中的时间句子定位：数据集和度量的深入探讨

本文主要研究 Temporal Sentence Grounding in Videos，在现有的评估协议中，重新组织两个广泛使用的 TSGV 基准及引入新的评估指标 dR @ n，IoU @ m 来校准基本的 IoU 分数，进一步监控 TSGV 的进展。

Jan, 2021

基于记忆的语义学习网络用于时序句子定位

提出了一种名为记忆引导语义学习网络（MGSL-Net）的内存增强网络来学习和记忆 TSG 任务中常见且罕见的内容，通过动态地关联常见和罕见情况，缓解模型忘记的问题，并在测试阶段通过检索存储的记忆来增强罕见情况，实现更好的泛化。

Jan, 2022

时序语句定位的变换等变一致性学习

介绍了一种新颖的自我监督学习框架，称为等变一致性规则学习（ECRL）框架，用于解决时间句子基础性问题（TSG），并利用该框架通过自我监督方式学习更具有区分性的针对每个视频的基于帧的查询相关表示。

May, 2023

弱监督的时间文章定位

通过提出一个新的挑战性任务 Weakly-Supervised temporal Article Grounding (WSAG) 和一个有效的方法 DualMIL，可以在一个相关的多媒体资源 (文章和视频) 的不同层级之间定位相关句子。我们提出了第一个 WSAG 数据集 YouwikHow，利用 wikiHow 文章和 YouTube 视频中的多尺度描述，并证明了 DualMIL 的有效性。

Oct, 2022

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

减少视觉和语言偏见以进行时间性句子定位

本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG（D-TSG）模型，实现在常见和罕见情况下的 Temporal sentence grounding，在三个基准数据集上取得了最先进的表现。

Jul, 2022

先于视觉感知：一种压缩视频时序句子对齐的有效管道

本研究针对压缩视频展开了时间句子引导的任务，并提出了一种全新的三分支压缩域空时融合框架（TCSF）来提取和聚合低级视觉特征以有效地进行时间句子引导。实验结果表明，TCSF 较其他最先进的方法具有更好的性能，并具有更低的复杂度。

Mar, 2023