BriefGPT.xyz
Ask
alpha
关键词
audiovisual action events
搜索结果 - 1
音视时刻:一个大规模标注的音视行动数据集
我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT),它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入,并基于此进行了音频视觉事件识别性能的改进研究。通过
→
PDF
a year ago
Prev
Next