Jan, 2024

EnCLAP:基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成

TL;DR我们提出了一种自动音频字幕的新框架 EnCLAP,使用了两个声学表示模型 EnCodec 和 CLAP 以及一个预训练语言模型 BART。我们还引入了一种称为 masked codec modeling 的新训练目标,提高了预训练语言模型的声学感知能力。在 AudioCaps 和 Clotho 上的实验结果表明,我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。