Oct, 2021

通过融合声学和语义信息来提高自动音频字幕生成的性能

TL;DR本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型,使用预训练的 ResNet38 来初始化预训练关键字编码器,并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码,实验证明该模型在 Clotho 数据集上达到了最先进的性能。