Sep, 2023

基于文本 - only 训练实现的弱监督自动音频字幕生成

TL;DR近年来,通过对成对音频和字幕进行数据集的研究,自动生成音频剪辑的描述取得了显著的成功,即自动音频字幕生成(AAC)。然而,收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练(CLAP)最新进展的启发,我们提出了一种弱监督方法来训练 AAC 模型,只需要文本数据和经过预训练的 CLAP 模型,从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中,我们学习从 CLAP 文本嵌入中重构文本,在推断过程中,我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距,我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法,证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。