本文提出了一种新模型,该模型可以明确地推理视频中的不同时间片段,证明了在包括时间语言的短语定位中,时间上下文的重要性,并通过TEMPO数据集进行了实验以验证模型可靠性。
Sep, 2018
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。
Aug, 2019
本文主要研究Temporal Sentence Grounding in Videos,在现有的评估协议中,重新组织两个广泛使用的TSGV基准及引入新的评估指标dR @ n,IoU @ m来校准基本的IoU分数,进一步监控TSGV的进展。
Jan, 2021
本文提出了一种新的视频文本时间对齐评估协议,包括将常用的数据集重新组织为不同的分布以及引入一种新的评估度量方法。此外,作者还提出了一种基于因果关系的多分支去偏置去混淆框架,帮助模型更好地对齐句子查询和视频片段的语义,实现了更好的性能。
Mar, 2022
本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题,并将其应用于 temporal sentence grounding 任务,通过跨模态平行变压器解码器将其编码为最终的基础。
Aug, 2022
本研究针对压缩视频展开了时间句子引导的任务,并提出了一种全新的三分支压缩域空时融合框架(TCSF)来提取和聚合低级视觉特征以有效地进行时间句子引导。实验结果表明,TCSF较其他最先进的方法具有更好的性能,并具有更低的复杂度。
Mar, 2023
该研究旨在解决一项新颖任务——流媒体视频中的时间句子定位,通过提出TwinNet结构和语言引导的特征压缩器,该方法在多个数据集上进行了广泛实验证明了其卓越性能。
Aug, 2023
通过使用多模态信息,我们提出了一种用于处理长视频中的Temporal Sentence Grounding任务的Grounding-Prompter方法,通过引导LLM进行TSG,提高了推理能力和理解TSG任务的性能。
Dec, 2023
本研究解决了现有视频时间定位模型依赖特定数据集进行训练并普遍缺乏泛化能力的问题。提出的无训练视频时间定位方法通过利用大规模预训练模型的能力,分析查询文本中的多个子事件及其时间关系,使得该方法在零-shot视频时间定位任务上表现优越,并在跨数据集和OOD情境下展现出更好的泛化能力。
Aug, 2024
本研究针对视频时间定位(VTG)中的文本查询与视频帧匹配问题,提出了一种整合整体文本理解的新方法。通过引入视觉帧级门控机制和跨模态对齐损失,我们改进了视频帧与文本查询之间的细致关联,显著提高了模型在VTG基准测试中的表现,强调了整体文本理解在定位语义重要视频部分中的关键作用。
Oct, 2024