减少视觉和语言偏见以进行时间性句子定位

MMJul, 2022

减少视觉和语言偏见以进行时间性句子定位

Reducing the Vision and Language Bias for Temporal Sentence Grounding

Daizong Liu, Xiaoye Qu, Wei Hu

TL;DR本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG（D-TSG）模型，实现在常见和罕见情况下的 Temporal sentence grounding，在三个基准数据集上取得了最先进的表现。

Abstract

temporal sentence grounding (TSG) is an important yet challenging task in multimedia information retrieval. Although previous TSG methods have achieved decent performance, they tend to capture the →

temporal sentence grounding multimedia information retrieval selection biases debiasing-tsg state-of-the-art performance

发现论文，激发创造

针对视频中的时间句子定位的偏见 - 冲突样本合成和对抗性消除偏见策略

通过使用偏置冲突样本合成和对抗性去偏策略（BSSARD），本研究提出了一种动态生成偏置冲突样本的方法，利用单模态特征与目标时刻的时间位置之间的潜在错综复杂的相关性。通过对抗性训练，偏置生成器不断引入偏见并生成偏置冲突样本来欺骗基准模型，同时基准模型不断消除引入的偏见，这需要其模拟多模态对齐信息。BSSARD 能够覆盖大多数耦合关系并同时破坏语言和视觉偏见。对 Charades-CD 和 ActivityNet-CD 的大量实验证明了 BSSARD 的有希望的去偏能力。

Jan, 2024

深入探讨视频中去偏置的时间句子定位：数据集、度量和方法

本文提出了一种新的视频文本时间对齐评估协议，包括将常用的数据集重新组织为不同的分布以及引入一种新的评估度量方法。此外，作者还提出了一种基于因果关系的多分支去偏置去混淆框架，帮助模型更好地对齐句子查询和视频片段的语义，实现了更好的性能。

Mar, 2022

流式视频中的时间语句定位

该研究旨在解决一项新颖任务 —— 流媒体视频中的时间句子定位，通过提出 TwinNet 结构和语言引导的特征压缩器，该方法在多个数据集上进行了广泛实验证明了其卓越性能。

Aug, 2023

基于记忆的语义学习网络用于时序句子定位

提出了一种名为记忆引导语义学习网络（MGSL-Net）的内存增强网络来学习和记忆 TSG 任务中常见且罕见的内容，通过动态地关联常见和罕见情况，缓解模型忘记的问题，并在测试阶段通过检索存储的记忆来增强罕见情况，实现更好的泛化。

Jan, 2022

重新思考视频采样和推理策略，用于时间性句子定位

本文提出了一种用于时序句子定位的新型 Siamese 取样与推理网络（SSRN），该网络使用 Siamese 取样机制在已有取样的基础上生成额外的情境帧，以更精细地理解活动，解决了已有方法中忽略的时序数据偏差和推理偏差问题，并能够在保证模型泛华能力的同时，对三个具有挑战性的数据集进行有效的定位。

Jan, 2023

视频中的时间句子定位：数据集和度量的深入探讨

本文主要研究 Temporal Sentence Grounding in Videos，在现有的评估协议中，重新组织两个广泛使用的 TSGV 基准及引入新的评估指标 dR @ n，IoU @ m 来校准基本的 IoU 分数，进一步监控 TSGV 的进展。

Jan, 2021

分层本地 - 全局变压器用于时间句子定位

本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题，并将其应用于 temporal sentence grounding 任务，通过跨模态平行变压器解码器将其编码为最终的基础。

Aug, 2022

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

时间性句子定位的迭代对齐框架：渐进式参与指南

本文提出了一个迭代对齐网络 (IA-Net) 来解决 TSG 任务，通过多步推理来互动地对齐视觉和语言特征，通过学习参数对多模态特征进行填充来缓解非匹配的问题，并且在并行方式下增强基本的共同注意力机制。为了进一步校准由每个推理步骤引起的不匹配的注意力，我们还设计了一个校准模块。本文的 IA-Net 模型在三个具有挑战性的基准测试中表现出更好的性能。

Sep, 2021

多教师知识蒸馏下视频中高效的时间句子定位

本论文提出了一个基于知识蒸馏的新型高效多教师模型（EMTM），旨在在维持高性能的同时，实现在未修剪视频中检测自然语言查询所描述的事件时间戳的挑战。

Aug, 2023