Oct, 2023

多分辨率音视频特征融合用于时序动作定位

TL;DR多分辨率音视频特征融合(MRAV-FF)是一种创新的方法,通过层级化门控交叉注意机制将不同时间分辨率的音视频数据合并,以提高时域动作定位任务的性能。