CVPRMar, 2021

通过视听计数重复活动

TL;DR本文介绍了一种将视听融合用于视频中重复活动计数的新方法,通过使用音频信息可以在遇到困难的视觉条件下获得更精确的结果。通过引入音频学习模块和可靠性评估模块的跨模态时间交互进行分析,已经在一个数据集上对该模型进行了学习和评估,并针对具有挑战性的视觉条件引入了数据集变体。实验表明,使用音频以及其他模块可显著提高模型的性能。