音频文本分类的级联交叉模态 Transformer
我们提出了一种新颖的级联跨模态变换器(CCMT),结合语音和文本转录以检测电话对话中的客户要求和投诉。我们的方法利用多模态范例,通过使用自动语音识别(ASR)模型转录语音并将转录成不同语言。随后,我们将语言特定的基于 BERT 的模型与 Wav2Vec2.0 音频特征结合使用在一个新颖的级联交叉注意力变换器模型中。我们将我们的系统应用到 ACM Multimedia 2023 计算言语学挑战赛的请求子挑战中,分别对于投诉和请求类别达到了 65.41%和 85.87%的非加权平均召回率(UAR)。
Jul, 2023
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们还采用多任务培训标准用于多分辨率 ASR,同时训练模型生成字符和子词级转录。实验结果表明,多分辨率训练可以加速收敛速度约 50%,并且相对于子词预测模型,单词错误率(WER)性能提高了高达 18%。此外,融合视觉信息可以改善表现,在仅使用音频模型的基础上,相对增益高达 3.76%。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。
Apr, 2020
通过引入跨模态对话表示,结合预训练的语音和文本模型,扩展 Conformer 编码器 - 解码器模型,我们的方法能够提取更丰富的历史语音上下文,实现较标准 Conformer 模型相对准确度提升 8.8%(HKUST)和 23%(MagicData-RAMC)的结果。
Oct, 2023
该研究提出了一种音频 - 文本交叉模态表示提取器,通过 attention 机制,将上下文文本表示作为上下文提供给 ASR 解码器,有效地提高了智能语音识别的性能。
Jul, 2022
本文提出了一种端到端的可训练语音翻译模型,通过优化所有 ASR 和 MT 模型的参数而避免级联模型中的误差传播,并且通过使用人工神经网络实现 backpropagation 传递误差以实现同时提供转录和翻译,对于四个不同数据场景的实验表明,该模型在 BLEU 和 TER 方面均优于传统级联模型和直接模型。
Nov, 2020
本论文介绍了一种名为 CTAL 的跨模态转换器,旨在利用大量的音频和语言数据对两个代理任务进行遮蔽语言建模和遮蔽跨模态声学建模,以学习音频和语言之间的内模态和跨模态连接。在多个下游音频和语言任务的微调后,我们观察到在情感分类、情感分析和说话者验证等各种任务中都有显着的改进。最后,我们进行了详细的剖析研究,证明我们的创新跨模态融合组件和音频语言预训练方法显著促成了这一有前途的结果。
Sep, 2021
探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法在干净和嘈杂的数据上的效果。
Apr, 2018
本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失,并提出一种多模态语言理解模块,利用自监督学习从语音和文本模态中获取特征,最终通过对音频信号和文本传输进行编码来获得更好的性能。
Jun, 2023
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
Mar, 2024