Dec, 2020

ViNet: 将视觉模态推至极限,用于音频视觉显著性预测

TL;DR提出了 ViNet 架构用于音频 - 视觉显著性预测,其采用全卷积编码器 - 解码器架构,利用动作识别网络的视觉特征来编码,通过三线性插值和 3D 卷积生成显著性图,没有使用音频作为输入,但是在 9 个不同的数据集上,仍然优于现有的音频 - 视觉显著性预测模型,而且还超过人类在某些度量标准上的表现,此外,还探索了一个在解码器中将音频特征纳入架构中的变体,得出了一些有趣的结论。