Apr, 2023

带 Patchout 和文本引导的高效音频字幕 Transformer

TL;DR本文提出了一种基于全 Transformer 架构的自动音频字幕生成方法,包含 Patchout、细化预训练分类模型和迁移学习、Mixup 数据增强等技术来提高音频字幕的性能和减少计算复杂度,研究结果在 DCASE Challenge 2022 中荣获评审团奖项。