自我中心视频中的单阶段视觉查询定位

Jun, 2023

自我中心视频中的单阶段视觉查询定位

Single-Stage Visual Query Localization in Egocentric Videos

Hanwen Jiang, Santhosh Kumar Ramakrishnan, Kristen Grauman

TL;DR提出了一种用于长格式自我中心视频上识别和定位特定对象的单阶段 VQL 框架，该框架比之前的方法精度提高了 20％，推断速度提高了 10 倍。

Abstract

visual query localization on long-form egocentric videos requires spatio-temporal search and localization of visually specified objects and is vital to build episodic memory systems. Prior work develops complex m

visual query localization long-form egocentric videos object detection tracking methods vqloc

发现论文，激发创造

自我中心视觉查询 2D 定位中负面帧至关重要

该研究在 Ego4D dataset 基础上提出了针对 2D 视觉图像中的目标检测与跟踪问题的效率更高、效果更好的 baseline 解决方案，并在公共排行榜上表现出色。

Aug, 2022

为自我中心视频估计更多的相机姿态对于 VQ3D 至关重要

通过设计新的 pipeline 并重新优化现有的 VQ3D 框架，我们在 VQ3D 排行榜中取得了 25.8% 的最佳成绩，比基线 8.7% 提高了两倍。

Nov, 2022

ObjectNLQ @ Ego4D Episodic Memory Challenge 2024

本文介绍了我们在 CVPR 2024 的 Ego4D Episodic Memory Benchmark 中，对于自然语言查询和目标步骤的研究领域的方法。我们的方法不仅处理了视频的时间信息，还在帧内空间上识别了细粒度对象，通过引入 ObjectNLQ 来增强视频表示，提高了定位的准确性。

Jun, 2024

CurriculumLoc: 通过多阶段改进增强跨领域地理定位

视觉地理定位方法的多阶段课程学习以及全局和局部特征的关键点检测、描述和位置调整使其成为一种实用的视觉地理定位解决方案，取得了高召回率的好成绩。

Nov, 2023

一种快速精确的一阶段视觉定位方法

提出一种基于单阶段模型的视觉 grounding 方法，将文本查询的嵌入与 YOLOv3 物体检测器融合，加入空间特征以处理查询中的空间提及，并实现端到端联合优化，实验表明此方法对于短语定位和指代表达理解具有很大的潜力，同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移

Aug, 2019

自然场景中的视觉查询检测

本文介绍了一种名为 “Visual Query Detection” 的新型视觉定位任务。在这项任务中，系统通过自然语言指导，定位图像中数量可变的多个对象。与视觉指代表达识别相关的是该任务只定位一个对象。本文提出了第一个 VQD 数据集，并且提出了基线算法，证明了相对于指代表达识别而言该任务的难度。

Apr, 2019

基于跨度问答框架的自然语言视频定位再探讨

本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法，利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题，并通过 VSLNet-L 模型进一步提高性能。实验结果表明，该方法优于现有方法，VSLNet-L 可以解决长时间视频性能衰退的问题。

Feb, 2021

LifelongMemory: 利用 LLM 为参照视频中的问题提供答案

通过使用多个预训练模型从广泛的自我中心视频内容中回答查询，本研究引入了 LifelongMemory，这是一种利用大型语言模型和视觉语言模型的新框架，以解决在复杂的视觉语言任务中捕捉长距离时间依赖关系的问题。

Dec, 2023

针对深度视频理解的查询感知长视频定位和关系判别

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

Oct, 2023

基于贝叶斯决策的二维视觉查询定位

本文介绍了我们在 EGO4D 2023 视觉查询二维定位挑战赛中采用的方法。我们使用 Transformer 在更高维度上确定相似性并结合来自 Siamese Head 的低维度相似性生成后验概率，最终确定了视觉裁剪和所建议边界框之间的相似性。

May, 2023