cross view feature fusion is the key to address the occlusion problem in
human pose estimation. The current fusion methods need to train a separate
model for every pair of cameras making them difficult to scale.
该研究论文提出了一种可应用于多视角 3D 姿态估计中的变换器框架,该框架可以直接整合来自不同视角的信息,以改善 2D 预测器的性能。同时,研究人员还提出了一个名为 Epipolar field 的概念,它可以将 3D 位置信息编码到变换器模型中。实验证明,该方法更加高效,与其他融合方法相比有一致的改进。