Jun, 2024

Ego4D Looking At Me Challenge 的 PCIE_LAM 解决方案

TL;DR该报告介绍了我们团队在 CVPR2024 的 Ego4D Looking At Me 挑战中的 'PCIE_LAM' 解决方案。我们的方案 InternLSTM 由 InternVL 图像编码器和 Bi-LSTM 网络组成,通过提取空间和时间特征来准确确定场景中的人是否面向佩戴摄像头的摄像机。鉴于此任务中存在的面部图像模糊问题,我们采用了 Gaze Smoothing 滤波器来消除噪音或波动,并在挑战中获得了第一名,mAP 为 0.81,准确率为 0.93。代码可在链接中访问。