音频 - 语言表示学习的大规模数据集

Sep, 2023

音频 - 语言表示学习的大规模数据集

A Large-scale Dataset for Audio-Language Representation Learning

Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie

TL;DR我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Abstract

The AI community has made significant strides in developing powerful foundation models, driven by large-scale multimodal datasets. However, in the audio representation learning community, the present audio-langua

audio representation learning audio caption generation large-scale dataset multimodal datasets downstream tasks

发现论文，激发创造

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

VGGSound：大规模音频视觉数据集

利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集，用于训练和评估音频识别模型。使用图像分类算法，过滤环境噪声，创建 VGGSound 数据集，并研究了各种卷积神经网络架构和聚合方法，以建立新数据集的音频识别基线。

Apr, 2020

ACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习

本文提出了一种基于子集优化的自动数据集精选方法，目标是最大化视频中音频和视觉通道之间的互信息，证明此方法找到具有高音频 - 视觉对应性的视频，并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果，最大的好处是可扩展性，我们发布了一个包含一亿个视频的 ACAV100M 数据集，它具有高音频 - 视觉对应性，非常适合用于自我监督学习。

Jan, 2021

音频对话：用于音频和音乐理解的对话数据集

通过大型语言模型生成多轮对话，展示了音频理解中的复杂性和适用性。

Apr, 2024

MAD: 电影音频描述视频语言基础数据集

该论文提出了 MAD 基准测试，通过爬取和对齐可用的主流电影音频描述，包含超过 384,000 个自然语言句子，展示出视频语言基础数据集中存在的偏差的显着减少，使短暂的时间点可以准确地与长达三个小时的视频相匹配。

Dec, 2021

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

LLM-AD: 基于大型语言模型的音频描述系统

介绍了一个利用 GPT-4V（视觉）的自动化音频描述生成流程，通过使用现成组件实现，不需要额外训练，生成符合自然语言音频描述生产标准的音频描述，同时通过基于跟踪的字符识别模块在帧间保持上下文一致的角色信息，在 MAD 数据集上表现与基于学习的方法相当，CIDEr 得分为 20.5。

May, 2024

MLS: 一个大规模的多语言语音研究数据集

本文介绍了 Multilingual LibriSpeech（MLS）数据集，这是一个大型的多语言语音研究语料库，包括 8 种语言，以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供，我们相信它将为 ASR 和 TTS 研究开辟新的途径。

Dec, 2020

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

AV-Deepfake1M：大规模基于 LLM 的视听深度伪造数据集

本研究针对高度逼真的深度伪造音视频内容的检测和定位问题提出了 AV-Deepfake1M 数据集，并通过全面的描述和严格的数据质量分析，使用先进的深度伪造检测和定位方法进行了综合基准测试，结果显示与之前数据集相比性能大幅下降。该数据集将在构建下一代深度伪造定位方法中发挥重要作用。

Nov, 2023