Sep, 2024

基于辅助检索模型扩展EnCLAP的自动音频字幕生成

TL;DR本文解决了自动音频字幕生成和基于语言的音频检索中的研究空白。我们在EnCLAP框架的基础上,优化了任务6的音频字幕生成,并提出了补充的检索模型用于任务8。研究表明,我们的方法在任务6和任务8中显著超过了基线模型,具有重要的应用价值。