Feb, 2023

Epic-Sounds: 一个大规模的动作声音数据集

TL;DR本文介绍了 EPIC-SOUNDS 数据集,该数据集包含 78.4k 个用于声音事件和行动识别的类别化段,以及 39.2k 个非类别化段。通过构建注释流程,该数据集具有时间标签和类标签,允许我们训练和评估两种状态最佳的音频识别模型,突出了仅音频标签的重要性以及当前模型识别声音行动的局限性。