Jul, 2024

使用大型语言模型的端到端语音摘要

TL;DR提出了一种利用 Q-Former 作为音频 - 文本模态连接器、采用大型语言模型从语音特征直接生成文本摘要的端到端 SSum 模型,并采用多阶段训练方法来提高模型处理长篇语音的能力,最终在 How-2 数据集上取得了具有竞争力的性能。