Jun, 2021

听我说:用混合方法增强音频时序动作定位

TL;DR本文提出了简单而有效的基于融合的方法,首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL),在多个融合方案、模态组合和 TAL 架构的消融试验中,我们通过大规模基准数据集(ActivityNet-1.3 和 THUMOS14)实验性地表明,我们的方案在国内外领先的仅视频 TAL 方法中始终能提高性能,特别地在指标度量上([email protected])达到新的最优水平。