关键词cascaded cross-modal transformer
搜索结果 - 2
- 音频文本分类的级联交叉模态 Transformer
利用多模态表示,通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言,结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务,该模型在 ACM Multimedia 2023 计算语音学挑战中获得 - MM级联跨模态变压器对于请求和投诉检测
我们提出了一种新颖的级联跨模态变换器(CCMT),结合语音和文本转录以检测电话对话中的客户要求和投诉。我们的方法利用多模态范例,通过使用自动语音识别(ASR)模型转录语音并将转录成不同语言。随后,我们将语言特定的基于 BERT 的模型与 W