ACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习

ICCVJan, 2021

ACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习

ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning

Sangho Lee, Jiwan Chung, Youngjae Yu, Gunhee Kim, Thomas Breuel...

TL;DR本文提出了一种基于子集优化的自动数据集精选方法，目标是最大化视频中音频和视觉通道之间的互信息，证明此方法找到具有高音频 - 视觉对应性的视频，并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果，最大的好处是可扩展性，我们发布了一个包含一亿个视频的 ACAV100M 数据集，它具有高音频 - 视觉对应性，非常适合用于自我监督学习。

Abstract

The natural association between visual observations and their corresponding sound provides powerful self-supervisory signals for learning video representations, which makes the ever-growing amount of online videos an attractive source of training data. However, large portions of online videos contain irrelevant audio-visual signals because of edited/overdubb

self-supervised learning video representation audio-visual correspondence dataset curation scalability

发现论文，激发创造

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

VGGSound：大规模音频视觉数据集

利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集，用于训练和评估音频识别模型。使用图像分类算法，过滤环境噪声，创建 VGGSound 数据集，并研究了各种卷积神经网络架构和聚合方法，以建立新数据集的音频识别基线。

Apr, 2020

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

通过提供高质量的人工注释，本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集，旨在支持多种音视频识别和理解任务，从而展示了 M^3AV 数据集的多样性和挑战性。

Mar, 2024

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

看、听、学习

探索了音视频流之间对应关系，并提出了利用该信息实现的自我监督视听学习任务，结果表明该方法成功解决了问题，并展现出良好的视听表征，可以将其应用于声音分类、物体定位和细粒度识别任务。

May, 2017

从未经筛选的教育视频中的视觉表示端到端学习

本文介绍了一种新的学习方法，MIL-NCE, 用于从讲述视频中学习强大的视频表示，并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频，有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估，证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。

Dec, 2019

AVLnet：从教育视频中学习音频 - 视觉语言表示

本文提出了一种自我监督网络 AVLnet，可从视频中直接学习共享的音频 - 视觉嵌入空间，并通过分析 AVLnet 的学习表示提出了一种三模态模型，用于学习多模态语义嵌入空间，其中包括用于音视频检索的文本标题。

Jun, 2020

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018