Nov, 2023

中心舞台:基于中心性的音频 - 视觉时域动作检测

TL;DR利用多尺度交叉注意力融合视觉和音频模态的一步式动作检测方法,结合基于中心程度评分的网络头部,实现了在 EPIC-Kitchens-100 动作检测基准上最新的最佳性能。