Jan, 2024

音频文本分类的级联交叉模态 Transformer

TL;DR利用多模态表示,通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言,结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务,该模型在 ACM Multimedia 2023 计算语音学挑战中获得不错的性能,并在 Speech Commands v2 和 HarperValleyBank 对话数据集上超过了之前的研究成果。