ECCVJul, 2022

学习长期时空图以进行活跃说话者检测

TL;DR本文提出了 SPELL,一种新的空间时序图学习框架,通过对每个视频帧中的人员建立节点、建立连接来将复杂任务如活跃扬声器检测转化为节点分类任务,实现了对所有节点的长时间上下文推理,显式地利用了空间和时间结构,明显提高了检测性能,且所需的计算和内存资源显著地降低。