深入探讨视频中去偏置的时间句子定位:数据集、度量和方法
本文主要研究 Temporal Sentence Grounding in Videos,在现有的评估协议中,重新组织两个广泛使用的 TSGV 基准及引入新的评估指标 dR @ n,IoU @ m 来校准基本的 IoU 分数,进一步监控 TSGV 的进展。
Jan, 2021
本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG(D-TSG)模型,实现在常见和罕见情况下的 Temporal sentence grounding,在三个基准数据集上取得了最先进的表现。
Jul, 2022
通过使用偏置冲突样本合成和对抗性去偏策略(BSSARD),本研究提出了一种动态生成偏置冲突样本的方法,利用单模态特征与目标时刻的时间位置之间的潜在错综复杂的相关性。通过对抗性训练,偏置生成器不断引入偏见并生成偏置冲突样本来欺骗基准模型,同时基准模型不断消除引入的偏见,这需要其模拟多模态对齐信息。BSSARD 能够覆盖大多数耦合关系并同时破坏语言和视觉偏见。对 Charades-CD 和 ActivityNet-CD 的大量实验证明了 BSSARD 的有希望的去偏能力。
Jan, 2024
该研究旨在解决一项新颖任务 —— 流媒体视频中的时间句子定位,通过提出 TwinNet 结构和语言引导的特征压缩器,该方法在多个数据集上进行了广泛实验证明了其卓越性能。
Aug, 2023
该论文提出了一种新的培训框架,通过使用混洗的视频来解决时间偏差问题,该框架引入了交叉模态匹配和时间顺序区分两个辅助任务来促进模型训练,以强化其对于长期时间上下文的理解和减轻依赖于时间偏差的影响。
Jul, 2022
通过减少标注成本并保持与全监督方法相竞争的性能,我们提出了一种基于动态高斯先验的望注释视图的时间句子定位框架,该框架在关键词之间进行了深入调研,并通过 Semantic Alignment Group Contrastive Learning 模块和 Dynamic Gaussian prior Adjustment 模块来提高性能。
Aug, 2023
该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况,并讨论了未来的研究方向,着重介绍了 TSGV 的多模态理解和交互技术,构建了 TSGV 技术的分类法,讨论了当前研究中存在的问题并分享了有前途的研究方向。
Jan, 2022
本研究提出了一种基于元学习的 Meta Video Scene Graph Generation (MVSGG) 框架,用于从支持集和若干查询集中构建训练数据并通过元训练和测试过程指导模型学习以针对空间时间条件偏差进行泛化,以提高视频场景图生成的泛化性能。
Jul, 2022
本论文提出了一个基于知识蒸馏的新型高效多教师模型(EMTM),旨在在维持高性能的同时,实现在未修剪视频中检测自然语言查询所描述的事件时间戳的挑战。
Aug, 2023