VGGSound:大规模音频视觉数据集
本文主要讲述了如何通过训练神经网络来定位视频中可见的声源,采用对图像难样本强化学习的方法以提升定位精度。同时,作者还介绍了一个新的数据集 VGG-Sound Source benchmark,并展示了该算法在其上的最先进性能。
Apr, 2021
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步,并使用新的 VGG-Sound Sync 数据集测试。结果表明,我们的模型优于先前的最先进技术。
Dec, 2021
本文提出了一种基于子集优化的自动数据集精选方法,目标是最大化视频中音频和视觉通道之间的互信息,证明此方法找到具有高音频 - 视觉对应性的视频,并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果,最大的好处是可扩展性,我们发布了一个包含一亿个视频的 ACAV100M 数据集,它具有高音频 - 视觉对应性,非常适合用于自我监督学习。
Jan, 2021
本文介绍了一种基于计算机视觉技术的全自动管道,用于从开源媒体中创建一个大规模的必须文本无关语音识别数据集,并在其上应用和比较不同的演讲者识别技术以建立性能基线。
Jun, 2017
本文介绍了一个大规模的音频 - 视觉说话人识别数据集,用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份,并展示出比以前的成果更高的性能表现。
Jun, 2018
本文介绍了使用几种不同的卷积神经网络对音频进行分类,发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效,使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。
Sep, 2016
通过使用大量的野外未标记的声音数据,我们利用视觉和声音之间的自然同步,使用两百万个未标记的视频学习声学表示,提出了一种学生 - 教师训练过程,将视觉知识转移到声音模态中,为声音场景 / 对象分类的标准基准提供了显着的性能提升,即使没有地面真实标签,声音网络自动形成一些高级语义。
Oct, 2016
探索了音视频流之间对应关系,并提出了利用该信息实现的自我监督视听学习任务,结果表明该方法成功解决了问题,并展现出良好的视听表征,可以将其应用于声音分类、物体定位和细粒度识别任务。
May, 2017
本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型,通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别,从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比,实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。
Apr, 2019