WavCaps: 基于 ChatGPT 辅助的弱标注音频字幕数据集，用于音频 - 语言多模态研究

Mar, 2023

WavCaps: 基于 ChatGPT 辅助的弱标注音频字幕数据集，用于音频 - 语言多模态研究

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research

Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko...

TL;DR本文介绍了 WavCaps 音频字幕数据集的构建方法，结合 ChatGPT 模型处理嘈杂的原始描述，最终得到了一个高质量的数据集。该数据集应用在多个音频 - 语言多模态学习任务中，取得了较大的进展。

Abstract

The advancement of audio-language (AL) multimodal learning tasks has been significant in recent years. However, researchers face challenges due to the costly and time-consuming collection process of existing

audio-language multimodal learning wavcaps dataset automated audio captioning chatgpt

发现论文，激发创造

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

RECAP：检索增强音频字幕

RECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

用合成标题改进文本到音频模型

通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Jun, 2024

数据与转换器在音频生成中的驯化

我们提出了两种新模型 AutoCap 和 GenAu 来解决由于数据稀缺和标题质量不足造成的环境声音和效果生成问题，AutoCap 利用音频的元数据显著提高了标题的质量，而 GenAu 则通过使用新数据集进行训练，在生成的音频质量上取得了显著的改善。

Jun, 2024

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023

使用 WavText5K 和 CLAP 训练进行音频检索

本文提出了一个新的 Web 音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2％和 16％的提高，对于音频 - 文本检索上的 6％和 23％的提高。

Sep, 2022

通过听觉引导的零射频音频字幕生成

音频字幕任务与图像和视频字幕任务在本质上相似，但鲜有关注。我们提出了音频字幕的三个愿景：生成文本的流畅性，生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法，不通过学习而是通过推理过程来进行字幕生成，其中涉及的三个网络对应三个期望的质量：（i）一个大型语言模型，本文中为 GPT-2，（ii）一个在音频文件和文本之间提供匹配分数的模型，我们使用一种名为 ImageBind 的多模态匹配网络，（iii）一个文本分类器，利用我们自动收集的数据集进行训练，数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果，证明了听觉指导明显提高了性能，相比缺乏这一目标的基准系统。

Sep, 2023