该研究在 Ego4D dataset 基础上提出了针对 2D 视觉图像中的目标检测与跟踪问题的效率更高、效果更好的 baseline 解决方案,并在公共排行榜上表现出色。
Aug, 2022
通过设计新的 pipeline 并重新优化现有的 VQ3D 框架,我们在 VQ3D 排行榜中取得了 25.8% 的最佳成绩,比基线 8.7% 提高了两倍。
Nov, 2022
本文介绍了我们在 CVPR 2024 的 Ego4D Episodic Memory Benchmark 中,对于自然语言查询和目标步骤的研究领域的方法。我们的方法不仅处理了视频的时间信息,还在帧内空间上识别了细粒度对象,通过引入 ObjectNLQ 来增强视频表示,提高了定位的准确性。
Jun, 2024
视觉地理定位方法的多阶段课程学习以及全局和局部特征的关键点检测、描述和位置调整使其成为一种实用的视觉地理定位解决方案,取得了高召回率的好成绩。
Nov, 2023
提出一种基于单阶段模型的视觉 grounding 方法,将文本查询的嵌入与 YOLOv3 物体检测器融合,加入空间特征以处理查询中的空间提及,并实现端到端联合优化,实验表明此方法对于短语定位和指代表达理解具有很大的潜力,同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移
Aug, 2019
本文介绍了一种名为 “Visual Query Detection” 的新型视觉定位任务。在这项任务中,系统通过自然语言指导,定位图像中数量可变的多个对象。与视觉指代表达识别相关的是该任务只定位一个对象。本文提出了第一个 VQD 数据集,并且提出了基线算法,证明了相对于指代表达识别而言该任务的难度。
Apr, 2019
本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法,利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题,并通过 VSLNet-L 模型进一步提高性能。实验结果表明,该方法优于现有方法,VSLNet-L 可以解决长时间视频性能衰退的问题。
Feb, 2021
通过使用多个预训练模型从广泛的自我中心视频内容中回答查询,本研究引入了 LifelongMemory,这是一种利用大型语言模型和视觉语言模型的新框架,以解决在复杂的视觉语言任务中捕捉长距离时间依赖关系的问题。
Dec, 2023
本文介绍了一种基于查询的长视频定位和关系判别方法,利用图像语言预训练模型来选择与查询相关的帧,免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置,并且经过充分的实验证明其效果和鲁棒性。
Oct, 2023
本文介绍了我们在 EGO4D 2023 视觉查询二维定位挑战赛中采用的方法。我们使用 Transformer 在更高维度上确定相似性并结合来自 Siamese Head 的低维度相似性生成后验概率,最终确定了视觉裁剪和所建议边界框之间的相似性。
May, 2023