Jan, 2024

STAF:视频中基于时空对齐融合的三维人体网格恢复

TL;DR提出了一种基于视频的 Spatio-Temporal Alignment Fusion (STAF) 模型,通过关注基于注意力的 Temporal Coherence Fusion Module (TCFM) 中的人体运动的相干线索,以及通过在特征图上预测网格投影来提取细粒度局部信息的 Spatial Alignment Fusion Module (SAFM),进一步引入多阶段邻近空间对齐融合模块以增强目标帧的特征表示,同时使用 Average Pooling Module (APM) 提高对整个输入序列的关注,从而显著提高了从视频中恢复结果的平滑度。通过在 3DPW、MPII3D 和 H36M 上进行了大量实验证明了 STAF 的优越性,实现了在精度和平滑度之间的最新权衡。