Jun, 2023

自我中心视频中的单阶段视觉查询定位

TL;DR提出了一种用于长格式自我中心视频上识别和定位特定对象的单阶段 VQL 框架,该框架比之前的方法精度提高了 20%,推断速度提高了 10 倍。