从全局表示内存中读取相关特征进行视觉目标跟踪
提出了一种鲁棒的目标建模框架(ROMTrack),同时对固有模板和混合模板特征进行建模,通过结合目标对象的固有特征和搜索区域的引导来抑制有害干扰物,并使用混合模板提取与目标相关的特征,从而实现更强大的目标建模框架。
Aug, 2023
本文提出了一种动态记忆网络来适应目标物体外观变化的模板适应方法,使用 LSTM 进行记忆控制,并通过注意力机制聚焦于潜在目标,应用门控残差模板学习控制检索记忆的数量,通过更新外部内存适应目标的外观变化,实验结果表明本文提出的 MemTrack 方法在 OTB 和 VOT 测试中表现良好,且实时速度为 50fps。
Mar, 2018
本文探讨了通过在计算机视觉系统中使用记忆来改进视频流中的物体检测的精度和减少计算时间的问题。我们通过交替使用传统的特征提取器和极其轻量级的提取器展示了在存在时间记忆的情况下,进行准确检测所需的计算量是非常小的。此外,我们展示了记忆容纳了足够的信息以应用于强化学习算法来学习自适应推断策略。我们的模型在 Imaget VID 2015 数据集上实现了移动方法中的最先进性能,并在 Pixel 3 手机上以 70+ FPS 的速度运行。
Mar, 2019
我们提出了一种新的多对象跟踪的视觉分层表示范式,并通过关注对象的组合性视觉区域和与背景的对比背景信息,不仅仅局限于语义可视线索(如边界框),而是更有效地区分对象。这种组合性 - 语义 - 上下文层次结构灵活地集成到不同的基于外观的多对象跟踪方法中。我们还提出了一种基于注意力的视觉特征模块来融合分层视觉表示。该方法在多个多对象跟踪基准中实现了最先进的准确性和时间效率。
Feb, 2024
提出一种名为 MG-RAFA 的关注特征汇聚模块,用于将空间 - 时间特征精细地聚合成具有判别性的视频级别特征表示,采用全局视图与卷积操作学习关注,并基于不同粒度的关系学习多粒度关注,实现了视频 ReID 任务上的最新成果。
Mar, 2020
本研究提出了一种视觉里程计框架,采用三个组件:内存、优化和特征集中。在几个基准数据集上进行的实验证明,相比于现有的学习方法,该方法在纹理不佳和突发运动等复杂环境下具有更优异的性能。
Apr, 2019
本文提出一种基于记忆增强的全局局部聚合(MEGA)网络,该网络融合了全局语义信息和局部定位信息,并通过新设计的长期记忆模块让关键帧可以获得比之前任何方法更多的内容,从而在 ImageNet VID 数据集上取得了最先进的性能。
Mar, 2020
本研究提出了一种关系感知全局注意力 (RGA) 模块,可以全面抓取全局结构信息以增强特征表示能力,实现了人员复识别 (Re-id) 领域的最新技术成果.
Apr, 2019