基于 Transformer 的多分辨率和多模式语音识别

ACLApr, 2020

基于 Transformer 的多分辨率和多模式语音识别

Multiresolution and Multimodal Speech Recognition with Transformers

Georgios Paraskevopoulos, Srinivas Parthasarathy, Aparna Khare, Shiva Sundaram

TL;DR本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别（AV-ASR）系统，特别关注视觉信息提供的场景背景，以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示，并使用附加的跨模态多头注意层融合视频特征。此外，我们还采用多任务培训标准用于多分辨率 ASR，同时训练模型生成字符和子词级转录。实验结果表明，多分辨率训练可以加速收敛速度约 50％，并且相对于子词预测模型，单词错误率（WER）性能提高了高达 18％。此外，融合视觉信息可以改善表现，在仅使用音频模型的基础上，相对增益高达 3.76％。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。

Abstract

This paper presents an audio visual automatic speech recognition (AV-ASR) system using a transformer-based architecture. We particularly f

audio visual speech recognition transformer-based architecture multiresolution training visual information

发现论文，激发创造

基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别

本文提出使用视频变压器替换三维卷积进行视觉特征提取，从而提高音频 - 视觉自动语音识别的性能，并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明，该方法在 LRS3-TED 上取得了国际领先的性能表现。另外，在多人音频 - 视觉自动语音识别方面，该方法相对于三维卷积实现了平均降低 2% 的性能损失。

Jan, 2022

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

语言引导的具身化智能体多模式语音识别

本文提出了一种多模式自动语音识别模型，通过考虑附带的视觉上下文来减少口头指令的错误转录，使用了仿真的噪声环境。实验结果表明，使用多模态 ASR 模型可使任务完成的准确性得到提高。

Feb, 2023

音频文本分类的级联交叉模态 Transformer

利用多模态表示，通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言，结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务，该模型在 ACM Multimedia 2023 计算语音学挑战中获得不错的性能，并在 Speech Commands v2 和 HarperValleyBank 对话数据集上超过了之前的研究成果。

Jan, 2024

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

序列到序列语音识别的多模态基础

本研究提出了基于多模态的端到端自适应语音识别系统，采用卷积神经网络获取视觉信息，与传统方法相比表现优越。

Nov, 2018

基于 Transformer 的视频表示的视听场景感知对话生成

本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog（AVSD）中解决长期时间视觉依赖和全局视觉信息的问题，并在答案生成方面取得了更高的目标性能评分。

Feb, 2022

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019