Aug, 2023

音视时刻:一个大规模标注的音视行动数据集

TL;DR我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT),它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入,并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试,我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信,这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源,特别是在涉及到音频视觉对应关系的研究问题中。