用合成标题改进文本到音频模型

Jun, 2024

Improving Text-To-Audio Models with Synthetic Captions

Zhifeng Kong, Sang-gil Lee, Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish...

TL;DR通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Abstract

It is an open challenge to obtain high quality training data, especially captions, for text-to-audio models. Although prior methods have leveraged \textit{text-only language models} to augment and improve caption

training data text-to-audio models audio captioning audio language model synthetic captions

发现论文，激发创造

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

数据与转换器在音频生成中的驯化

我们提出了两种新模型 AutoCap 和 GenAu 来解决由于数据稀缺和标题质量不足造成的环境声音和效果生成问题，AutoCap 利用音频的元数据显著提高了标题的质量，而 GenAu 则通过使用新数据集进行训练，在生成的音频质量上取得了显著的改善。

Jun, 2024

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023

探索音频在视频字幕中的作用

本研究提出了一种音视频框架，利用原始音频信号学习，通过 Modality Balanced Pre-training 优化模型，且采用局部和全局融合机制进行信息交换，以提高视频字幕生成的性能。

Jun, 2023

使用未标记的视频和预训练语言 - 视觉模型进行文本 - 音频合成的 CLIPSonic

利用预训练模型和未标注视频数据，本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点，并通过传输模式来进一步提升性能。

Jun, 2023

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

通过合成对的方法改善文本式图像描述的跨模态对齐

本研究提出了一种新方法，通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像，并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征，同时利用图像中的显著对象来增强模态对齐的学习。实验证明，该方法在基准数据集上取得了最先进的性能。

Dec, 2023

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022