VGGSound：大规模音频视觉数据集

Apr, 2020

VGGSound: A Large-scale Audio-Visual Dataset

Honglie Chen, Weidi Xie, Andrea Vedaldi, Andrew Zisserman

TL;DR利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集，用于训练和评估音频识别模型。使用图像分类算法，过滤环境噪声，创建 VGGSound 数据集，并研究了各种卷积神经网络架构和聚合方法，以建立新数据集的音频识别基线。

Abstract

Our goal is to collect a large-scale audio-visual dataset with low label noise from videos in the wild using computer vision techniques. The resulting dataset can be used for training and evaluating →

audio-visual dataset computer vision techniques audio recognition models convolutional neural network vggsound dataset

发现论文，激发创造

艰难的方式本地化视觉音效

本文主要讲述了如何通过训练神经网络来定位视频中可见的声源，采用对图像难样本强化学习的方法以提升定位精度。同时，作者还介绍了一个新的数据集 VGG-Sound Source benchmark，并展示了该算法在其上的最先进性能。

Apr, 2021

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

野外音视频同步

本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步，并使用新的 VGG-Sound Sync 数据集测试。结果表明，我们的模型优于先前的最先进技术。

Dec, 2021

ACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习

本文提出了一种基于子集优化的自动数据集精选方法，目标是最大化视频中音频和视觉通道之间的互信息，证明此方法找到具有高音频 - 视觉对应性的视频，并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果，最大的好处是可扩展性，我们发布了一个包含一亿个视频的 ACAV100M 数据集，它具有高音频 - 视觉对应性，非常适合用于自我监督学习。

Jan, 2021

VoxCeleb：一个大规模的说话人识别数据集

本文介绍了一种基于计算机视觉技术的全自动管道，用于从开源媒体中创建一个大规模的必须文本无关语音识别数据集，并在其上应用和比较不同的演讲者识别技术以建立性能基线。

Jun, 2017

VoxCeleb2：深度语音说话人识别

本文介绍了一个大规模的音频 - 视觉说话人识别数据集，用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份，并展示出比以前的成果更高的性能表现。

Jun, 2018

大规模音频分类的 CNN 结构

本文介绍了使用几种不同的卷积神经网络对音频进行分类，发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效，使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。

Sep, 2016

从无标注视频中学习声音表征的 SoundNet

通过使用大量的野外未标记的声音数据，我们利用视觉和声音之间的自然同步，使用两百万个未标记的视频学习声学表示，提出了一种学生 - 教师训练过程，将视觉知识转移到声音模态中，为声音场景 / 对象分类的标准基准提供了显着的性能提升，即使没有地面真实标签，声音网络自动形成一些高级语义。

Oct, 2016

看、听、学习

探索了音视频流之间对应关系，并提出了利用该信息实现的自我监督视听学习任务，结果表明该方法成功解决了问题，并展现出良好的视听表征，可以将其应用于声音分类、物体定位和细粒度识别任务。

May, 2017

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019