Jul, 2024

CountFormer:多视角人群计数变换器

TL;DR提出了一种简洁的三维多视图计数(MVC)框架CountFormer,能够将多视图图像级特征提升到场景级体积表示,并基于体积特征估计三维密度图,通过引入相机编码策略,CountFormer成功地将相机参数嵌入体积查询和图像级特征中,使其能够处理具有显著差异的各种相机布局。同时,借助注意机制的特征修正模块将图像级特征转换为每个相机视图的三维体积表示,然后,多视图体积聚合模块以注意力的方式聚合各种多视图体积,创建综合的场景级体积表示,CountFormer能够处理任意动态相机布局下采集的图像,该方法在各种广泛使用的数据集上表现优于现有方法,显示出与传统MVC框架相比,在真实世界应用方面更加合适。