视频定位用的密集回归网络

CVPRApr, 2020

Dense Regression Network for Video Grounding

Runhao Zeng, Haoming Xu, Wenbing Huang, Peihao Chen, Mingkui Tan...

TL;DR本研究旨在解决自然语言查询的视频地面问题，并通过使用密集监管改进视频地面的准确性，相比与现有方法，我们的方法在三个数据集上均有明显的优势。

Abstract

We address the problem of video grounding from natural language queries. The key challenge in this task is that one training video might only contain a few annotated starting/ending frames that can be used as pos

video grounding natural language queries dense regression network supervisions localization quality

发现论文，激发创造

基于不相交监督的密集视频目标字幕生成

我们提出了一种针对密集视频对象字幕的新任务和模型 - 检测、跟踪和说明视频中所有对象的轨迹。

Jun, 2023

基于实况视频描述

该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来，并给出了一个能够利用 bounding box 的词语注释的视频描述模型，其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。

Dec, 2018

RGNet：一个用于长视频的统一检索与定位网络

通过统一跨模态 RG-Encoder 和稀疏采样技术，RGNet 方法实现了对长视频进行端到端的特定时刻定位，从而超过了以往在长视频时间定位数据集 MAD 和 Ego4D 上的方法，展示了最先进的性能。

Dec, 2023

弱监督查询视频定位的多尺度自对比学习与硬负例挖掘

本研究提出了一种自我对比学习框架来在弱监督的条件下解决基于查询的视频定位任务，通过学习针对查询语义的逐帧匹配分数以预测可能的前景帧，并采用粗到细的对比学习方法来区分误检的帧，从而提高了视频定位的准确性。

Mar, 2022

视频问答中基于密集字幕匹配和帧选择门控的时间定位

本文提出了一种视频问答模型，它有效地集成了多模态输入源并从中找到临时相关信息以回答问题，该模型包括多种设计方法，包括基于稠密图像标题的对象及其详细显著区域和动作识别，双重关注，跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控，这个模型在多个数据集上的表现优于现有的技术。

May, 2020

提升密集三维视觉对接的三种方法

通过引入密集三维视觉接地网络 ConcreteNet，该文研究了在物理交互类应用中实现密集三维视觉接地的方法，包括引入底层注意融合模块、对潜在空间进行对比训练、以及解决视角依赖性表达的全局相机令牌，提高了富有挑战性的重复实例的接地性能，从而实现了在三维场景中进行的交互式物体定位。

Sep, 2023

基于损失加权和对象交互的文本弱监督视频对象定位

本文研究弱监督视频对象定位问题，并探讨了在图像域中使用的多实例学习方法在视频域中的扩展性。作者提出了一种将弱监督信号从视频层面传递到帧层面的方法，并将对象之间的交互作为定位的文本指导。在新收集的基准测试 YouCook2-BoundingBox 上，该模型取得了竞争基线方法无法匹敌的表现。

May, 2018

ICCV 2023 感知测试挑战的解决方案 -- 任务 6-- 基于视频的问题回答

本研究介绍了一种基于视频的问答解决方案，通过将视觉定位和物体跟踪结合，提出了一个两阶段的替代方法，并利用 VALOR 模型回答问题并生成边界框。

Jul, 2024

探索使用扩散模型的迭代细化来进行视频定位

DiffusionVG 是一个以扩散模型为基础的新框架，通过生成随机噪声输入逐步改进的逆向扩散过程，将视频定位作为一项条件生成任务，并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。

Oct, 2023

深度卷积图网络的分层视频帧序列表示

本文提出了一种基于深度卷积图神经网络的视频分类方法，利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取，获得反映事件语义的视频表示，其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。

Jun, 2019