Epic-Sounds: 一个大规模的动作声音数据集

Feb, 2023

Epic-Sounds: 一个大规模的动作声音数据集

Epic-Sounds: A Large-scale Dataset of Actions That Sound

Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman

TL;DR本文介绍了 EPIC-SOUNDS 数据集，该数据集包含 78.4k 个用于声音事件和行动识别的类别化段，以及 39.2k 个非类别化段。通过构建注释流程，该数据集具有时间标签和类标签，允许我们训练和评估两种状态最佳的音频识别模型，突出了仅音频标签的重要性以及当前模型识别声音行动的局限性。

Abstract

We introduce epic-sounds, a large-scale dataset of audio annotations capturing temporal extents and class labels within the →

epic-sounds audio annotations temporal labeling action recognition

发现论文，激发创造

SoundingActions：从自述的视觉记录视频中学习动作的声音

我们提出了一种新的自监督嵌入方法，通过从生动的一视角视频中学习动作的声音。我们的多模态对比一致编码嵌入（MC3）在所有模态对都匹配时增强音频、语言和视觉之间的关联性，而在某一个模态对不匹配时减弱关联性。我们的方法成功地发现了来自一视角视频中各类人类动作的声音，超过了多种最新的多模态嵌入技术在两个数据集（Ego4D 和 EPIC-Sounds）和多个跨模态任务上的表现。

Apr, 2024

EPIC-KITCHENS 数据集：收集、挑战和基准

本文介绍了 EPIC-KITCHENS 数据集的构建，该数据集具有大规模、种类多样的人们在厨房的日常行为记录，并且由多名来自不同国籍的参与者拍摄，其中所有视频都进行了密集注释和真实意图的讲述，并使用了多模态建模等基础线和新基础线进行了评估。

Apr, 2020

重塑自我中心视角

本文介绍了拓展视角中最大数据集 EPIC-KITCHENS 的一种方法，推出了 EPIC-KITCHENS-100，其中使用头戴式相机记录了 45 个环境中长期非剧本活动的 100 小时、2000 万帧、90,000 个动作，在 fine-grained actions、action detection、action recognition、unsupervised domain adaptation、cross-modal retrieval 等领域提供了新的挑战与评估。

Jun, 2020

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

AudioInceptionNeXt：TCL AI LAB 提交 EPIC-SOUND 声音交互识别挑战 2023

本文介绍了我们在 2023 年 Epic-Kitchen EPIC-SOUNDS 音频交互识别挑战赛中提交的技术细节。我们提出了一种名为 AudioInceptionNeXt 的单流 CNN 架构，其使用时间频率 log-mel-spectrogram 的音频样本，并采用分别捕获长时间活动和全局语义信息和捕获短时间活动和频率局部细节的深度可分离卷积核以更有效地学习时间和频率信息。在挑战测试集上，我们的方法取得了 55.43％的 top-1 准确率，排名公共排行榜第一。

Jul, 2023

扩展自我视觉：EPIC-KITCHENS 数据集

本文介绍了 EPIC-KITCHENS 数据库，它是一个大规模的第一人称视角视频数据库，其中包含了来自 32 个参与者的 55 小时视频，多样性与大规模性深度融合，视频被密集标记为总共 39.6K 个动作段和 454.3K 个物体边界框，并且注释与真实意图紧密相关，该数据库可用于第一人称视角视频领域的挑战评估和研究。

Apr, 2018

Action2Sound: 环境感知的从自我为中心视频生成行动声音

提出了一种新颖的环境感知音频生成模型，用于根据视频内容生成符合语义和时间要求的音频；使用了特殊的音频条件机制，以在野外训练视频中学习将前景动作声音与环境背景声音解耦合。

Jun, 2024

EPIC-Fusion: 基于视听时空绑定的第一人称动作识别

提出了一种多模态融合架构，采用中层融合以及稀疏地对融合表示进行时间采样，将 RGB、Flow 和 Audio 三种模态进行融合，重点研究了多模态时间绑定，逐步改进，取得最先进的结果。

Aug, 2019

Team AcieLee: 2023 EPIC-SOUNDS 基于音频的交互识别挑战技术报告

介绍了 AcieLee 团队的技术细节和实验结果，他们使用了学习率衰减、骨干网络冻结、标签平滑和焦点损失等技术，通过多个模型合并得出一个性能优秀的模型，最终在 EPIC-SOUNDS 语音交互识别挑战赛中获得第三名。

Jun, 2023

VGGSound：大规模音频视觉数据集

利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集，用于训练和评估音频识别模型。使用图像分类算法，过滤环境噪声，创建 VGGSound 数据集，并研究了各种卷积神经网络架构和聚合方法，以建立新数据集的音频识别基线。

Apr, 2020