音频文本分类的级联交叉模态 Transformer

Jan, 2024

音频文本分类的级联交叉模态 Transformer

Cascaded Cross-Modal Transformer for Audio-Textual Classification

Nicolae-Catalin Ristea, Andrei Anghel, Radu Tudor Ionescu

TL;DR利用多模态表示，通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言，结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务，该模型在 ACM Multimedia 2023 计算语音学挑战中获得不错的性能，并在 Speech Commands v2 和 HarperValleyBank 对话数据集上超过了之前的研究成果。

Abstract

speech classification tasks often require powerful language understanding models to grasp useful features, which becomes problematic when limited training data is available. To attain superior classification performance, we propose to harness the inherent value of →

speech classification language understanding models multimodal representations automatic speech recognition cascaded cross-modal transformer

发现论文，激发创造

级联跨模态变压器对于请求和投诉检测

我们提出了一种新颖的级联跨模态变换器（CCMT），结合语音和文本转录以检测电话对话中的客户要求和投诉。我们的方法利用多模态范例，通过使用自动语音识别（ASR）模型转录语音并将转录成不同语言。随后，我们将语言特定的基于 BERT 的模型与 Wav2Vec2.0 音频特征结合使用在一个新颖的级联交叉注意力变换器模型中。我们将我们的系统应用到 ACM Multimedia 2023 计算言语学挑战赛的请求子挑战中，分别对于投诉和请求类别达到了 65.41％和 85.87％的非加权平均召回率（UAR）。

Jul, 2023

基于 Transformer 的多分辨率和多模式语音识别

本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别（AV-ASR）系统，特别关注视觉信息提供的场景背景，以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示，并使用附加的跨模态多头注意层融合视频特征。此外，我们还采用多任务培训标准用于多分辨率 ASR，同时训练模型生成字符和子词级转录。实验结果表明，多分辨率训练可以加速收敛速度约 50％，并且相对于子词预测模型，单词错误率（WER）性能提高了高达 18％。此外，融合视觉信息可以改善表现，在仅使用音频模型的基础上，相对增益高达 3.76％。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。

Apr, 2020

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

紧密集成的级联语音翻译端到端训练

本文提出了一种端到端的可训练语音翻译模型，通过优化所有 ASR 和 MT 模型的参数而避免级联模型中的误差传播，并且通过使用人工神经网络实现 backpropagation 传递误差以实现同时提供转录和翻译，对于四个不同数据场景的实验表明，该模型在 BLEU 和 TER 方面均优于传统级联模型和直接模型。

Nov, 2020

CTAL：跨模态预训练 Transformer 用于音频和语言表示

本论文介绍了一种名为 CTAL 的跨模态转换器，旨在利用大量的音频和语言数据对两个代理任务进行遮蔽语言建模和遮蔽跨模态声学建模，以学习音频和语言之间的内模态和跨模态连接。在多个下游音频和语言任务的微调后，我们观察到在情感分类、情感分析和说话者验证等各种任务中都有显着的改进。最后，我们进行了详细的剖析研究，证明我们的创新跨模态融合组件和音频语言预训练方法显著促成了这一有前途的结果。

Sep, 2021

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

健壮口语理解的多模态音文结构

本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失，并提出一种多模态语言理解模块，利用自监督学习从语音和文本模态中获取特征，最终通过对音频信号和文本传输进行编码来获得更好的性能。

Jun, 2023

甩手语识别的跨模态相互学习

该研究提出了一种基于变压器的跨模态相互学习框架，用于提高 Cued Speech 系统的自动识别性能，并在中文、法语和英语语言中取得了显着的识别性能提升。

Dec, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024