基于文本 - only 训练实现的弱监督自动音频字幕生成

Sep, 2023

基于文本 - only 训练实现的弱监督自动音频字幕生成

Weakly-supervised Automated Audio Captioning via text only training

Theodoros Kouzelis, Vassilis Katsouros

TL;DR近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Abstract

In recent years, datasets of paired audio and captions have enabled remarkable success in automatically generating descriptions for audio clips, namely automated audio captioning (AAC). However, it is labor-intensive and time-consuming to collect a sufficient number of paired audio and

automated audio captioning contrastive language-audio pretraining weakly-supervised approach clap modality gap

发现论文，激发创造

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

用合成标题改进文本到音频模型

通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Jun, 2024

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

通过优化音频编码增强基于大型语言模型的自动音频字幕生成

增强自动音频字幕生成的方法通过预训练音频编码器、查询变换器和大语言模型，改善了音频标记的准确性和结果性能。

Jun, 2024

使用未标记的视频和预训练语言 - 视觉模型进行文本 - 音频合成的 CLIPSonic

利用预训练模型和未标注视频数据，本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点，并通过传输模式来进一步提升性能。

Jun, 2023

使用 WavText5K 和 CLAP 训练进行音频检索

本文提出了一个新的 Web 音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2％和 16％的提高，对于音频 - 文本检索上的 6％和 23％的提高。

Sep, 2022

一石二鸟：音频字幕系统是否也可用于音频文本检索？

通过探索未经微调的 AAC 系统，该研究调查了 AAC 和 ATR 之间的关系，发现使用标准的 Cross-Entropy 损失值可以实现良好的 ATR 性能。

Aug, 2023

RECAP：检索增强音频字幕

RECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

EnCLAP：基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成

我们提出了一种自动音频字幕的新框架 EnCLAP，使用了两个声学表示模型 EnCodec 和 CLAP 以及一个预训练语言模型 BART。我们还引入了一种称为 masked codec modeling 的新训练目标，提高了预训练语言模型的声学感知能力。在 AudioCaps 和 Clotho 上的实验结果表明，我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。

Jan, 2024