- ECCV通过自监督的时间延迟估计实现声音定位
该研究提出了使用自我监督的对比随机游走技术来学习立体声音频的对应关系,进而实现对声音的时间延迟估计,同时提出了一种多模态对比学习模型,可应用于特定人员在多扬声器混音情况下的面部视觉定位任务。
- 一份信息丰富的追踪基准测试
在本研究中,我们设计了一种有效的方法来构建一个小而信息丰富的跟踪基准 (ITB),它包含了所有典型的挑战情境,以便评估跟踪器的性能,并且对未来研究方向提出了新的挑战,同时分析了 15 种最先进的跟踪器的结果。
- ICCV野外单个 RGB 图像中基于语义嵌入的无监督光谱重建
该研究提出了一种新颖的轻量级、端到端学习的框架,能够在没有成对的高光谱和 RGB 图像训练数据的情况下,从单个 RGB 图像重建高光谱图像,并在合成和实际数据上实现了更好的性能。
- 人类和机器中的无需重新识别追踪
研究深度神经网络在视觉追踪中是否具有物体外观和运动特征模拟的能力,并提出了一种追踪对象基于动态线索电路模型,并将之加到基于转换器的体系结构进行追踪,使其具有更好的普遍性和鲁棒性。
- SeaDronesSee:开放水域人类检测的海上基准
本文介绍了一个旨在填补从陆基视觉系统到海基系统的差距的大规模视觉目标检测和跟踪基准(SeaDronesSee),我们从各种高度和视角,提供海拔,视角和其他元数据等相关信息,收集和注释了超过 54,000 帧,包括 400,000 个实例,并 - ICCV学习目标候选关联以跟进不需要跟进的内容
本文提出了一种使用关联网络来追踪眼花缭乱的物体的方法,通过结合部分注释和自我监督的训练策略,该方法在多个数据集上表现出新的最先进水平,并且在 LaSOT 上取得了 67.1% 的 AUC 分数,在 OxUvA 长期数据集上增加了 +5.8% - 用于高速空中追踪的连锁锚点建议网络
该研究提出了一种新的基于 Siamese 网络的两阶段方法,即第一阶段用于高质量锚点提取,第二阶段用于锚点的细化优化,从而实现了对小物体、遮挡物和快速移动物体的自适应锚点生成,大大降低了计算量,在三个基准测试中获得了更优秀的表现,并取得了大 - CVPR学习融合不对称特征映射在孪生跟踪器中
该研究提出了一种可学习的模块 —— 不对称卷积 (ACM),通过在大规模数据的离线训练中学习更好地捕获语义相关信息,有效克服了现有 Siamese 跟踪器中存在的问题。同时,将 ACM 集成到现有的 SiamFC,SiamRPN ++ 和 - 图注意力跟踪
本文提出了一种简单的基于目标感知的 Siamese 图注意力网络解决视觉跟踪中的相似性匹配问题,通过建立完全二分图建立目标和搜索区域之间的部分对部分对应关系,并应用图注意力机制从模板特征传播目标信息到搜索特征,使用目标感知区域选择机制适配不 - LaSOT: 高质量大规模单目标跟踪基准
LaSOT 是一个高质量的大规模单目标跟踪基准,拥有 85 个类别,共计超过 387 万帧,每帧都经过精心手动注释,提供了一个专门的高质量平台供跟踪器的训练和评估。在 LaSOT 上的广泛评估表明,仍然存在显着的改进空间。
- ECCVRPT: 孪生视觉跟踪的点集表示学习
提出了一种基于代表点表示的有效视觉跟踪框架,结合多层级聚合策略获取细致的结构信息,实现了对目标状态的精确估计,并在多个基准测试上取得了新的最佳性能。
- CVPR无监督深度表示学习用于实时跟踪
提出了一种无监督学习方法,基于 Siamese 相关滤波网络,在前向追踪和反向追溯之间进行一致性测量来训练视觉跟踪器,并提出了多帧验证方案和一种成本敏感的损失来促进无监督学习,该方法在速度上达到实时水平,在不使用昂贵标记数据的情况下,实现与 - 基于 TridentAlign 和上下文嵌入的视觉跟踪
本篇论文提出了分别基于 TridentAlign 模块和上下文嵌入模块的连体网络视觉跟踪方法以应对高度变化目标对象和类似类别的干扰对象在视觉跟踪中常常面临的挑战,实验结果表明,该跟踪器的性能可与最先进的跟踪器相媲美,同时实现实时速度。
- Alpha-Refine: 通过精确定界框估计提高跟踪性能
本文介绍了一种新的、灵活的和准确的细化模块 Alpha-Refine,并将其应用于五种基础跟踪器中,实现了在 TrackingNet、LaSOT 和 VOT2018 基准测试中比其他现有的细化方法显著提高跟踪性能的效果。
- 能量模型回归训练方法
前沿研究表明应用基于能量的模型于计算机视觉领域的回归任务,特别是物体检测和视觉跟踪任务,可以实现最先进的性能,但其训练是具有挑战性的。本文整合六种流行方法并提出一种扩展的噪声对比估计方法来解决训练问题,并在五个数据集上实现了最新成果。
- CVPR视觉跟踪的概率回归
本文提出了一种基于概率回归的视觉跟踪方法,用于建模不确定性和噪声,通过最小化 Kullback-Leibler 离差散度进行训练,实验结果显示这一方法在六个数据集上都取得了最佳性能表现。
- CVPR适应性孪生盒网络用于视觉跟踪
通过利用完全卷积网络的表达能力,将视觉跟踪问题视为并行分类和回归问题,避免了与候选框相关的超参数,使得 SiamBAN 更具灵活性和通用性。在包括 VOT2018、VOT2019、OTB100、NFS、UAV123 和 LaSOT 的视觉跟 - CVPR孪生自然语言跟踪器:通过自然语言描述进行跟踪的孪生跟踪器
提出 “Siamese Natural Language Tracker” 的新方法,应用于自然语言描述任务的跟踪。相关实验证明,该算法比 “Siamese trackers” 有显著提升,是目前最好的实时跟踪器之一。
- 视觉跟踪的深度学习:一项综述
本文对深度学习手段在视觉目标跟踪中的应用作了全面综述,包括常用的数据集、评估指标以及当前领先的跟踪器,并对它们进行了量化和定性分析,旨在为实践者在选择方案时提供指导和对未来方向进行探讨。
- SiamCAR: Siamese 全卷积分类和回归用于视觉追踪
该研究提出了一种使用全卷积孪生网络以像素级方式解决视觉跟踪问题的方法,其中包括特征提取和边界框预测两个子网络,不需要基于区域建议,能够更简单、更准确地进行目标跟踪。