Epic-Sounds: 一个大规模的动作声音数据集
我们提出了一种新的自监督嵌入方法,通过从生动的一视角视频中学习动作的声音。我们的多模态对比一致编码嵌入(MC3)在所有模态对都匹配时增强音频、语言和视觉之间的关联性,而在某一个模态对不匹配时减弱关联性。我们的方法成功地发现了来自一视角视频中各类人类动作的声音,超过了多种最新的多模态嵌入技术在两个数据集(Ego4D 和 EPIC-Sounds)和多个跨模态任务上的表现。
Apr, 2024
本文介绍了 EPIC-KITCHENS 数据集的构建,该数据集具有大规模、种类多样的人们在厨房的日常行为记录,并且由多名来自不同国籍的参与者拍摄,其中所有视频都进行了密集注释和真实意图的讲述,并使用了多模态建模等基础线和新基础线进行了评估。
Apr, 2020
本文介绍了拓展视角中最大数据集 EPIC-KITCHENS 的一种方法,推出了 EPIC-KITCHENS-100,其中使用头戴式相机记录了 45 个环境中长期非剧本活动的 100 小时、2000 万帧、90,000 个动作,在 fine-grained actions、action detection、action recognition、unsupervised domain adaptation、cross-modal retrieval 等领域提供了新的挑战与评估。
Jun, 2020
本文介绍了我们在 2023 年 Epic-Kitchen EPIC-SOUNDS 音频交互识别挑战赛中提交的技术细节。我们提出了一种名为 AudioInceptionNeXt 的单流 CNN 架构,其使用时间频率 log-mel-spectrogram 的音频样本,并采用分别捕获长时间活动和全局语义信息和捕获短时间活动和频率局部细节的深度可分离卷积核以更有效地学习时间和频率信息。在挑战测试集上,我们的方法取得了 55.43%的 top-1 准确率,排名公共排行榜第一。
Jul, 2023
本文介绍了 EPIC-KITCHENS 数据库,它是一个大规模的第一人称视角视频数据库,其中包含了来自 32 个参与者的 55 小时视频,多样性与大规模性深度融合,视频被密集标记为总共 39.6K 个动作段和 454.3K 个物体边界框,并且注释与真实意图紧密相关,该数据库可用于第一人称视角视频领域的挑战评估和研究。
Apr, 2018
提出了一种新颖的环境感知音频生成模型,用于根据视频内容生成符合语义和时间要求的音频;使用了特殊的音频条件机制,以在野外训练视频中学习将前景动作声音与环境背景声音解耦合。
Jun, 2024
提出了一种多模态融合架构,采用中层融合以及稀疏地对融合表示进行时间采样,将 RGB、Flow 和 Audio 三种模态进行融合,重点研究了多模态时间绑定,逐步改进,取得最先进的结果。
Aug, 2019
介绍了 AcieLee 团队的技术细节和实验结果,他们使用了学习率衰减、骨干网络冻结、标签平滑和焦点损失等技术,通过多个模型合并得出一个性能优秀的模型,最终在 EPIC-SOUNDS 语音交互识别挑战赛中获得第三名。
Jun, 2023
利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集,用于训练和评估音频识别模型。使用图像分类算法,过滤环境噪声,创建 VGGSound 数据集,并研究了各种卷积神经网络架构和聚合方法,以建立新数据集的音频识别基线。
Apr, 2020