基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别

Jan, 2022

基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video

Dmitriy Serdyuk, Otavio Braga, Olivier Siohan

TL;DR本文提出使用视频变压器替换三维卷积进行视觉特征提取，从而提高音频 - 视觉自动语音识别的性能，并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明，该方法在 LRS3-TED 上取得了国际领先的性能表现。另外，在多人音频 - 视觉自动语音识别方面，该方法相对于三维卷积实现了平均降低 2% 的性能损失。

Abstract

audio-visual automatic speech recognition (AV-ASR) extends speech recognition by introducing the video modality as an additional source of information. In this work, the information contained in the motion of the speaker's mouth is used to augment the audio features. The video modality

audio-visual automatic speech recognition video transformer visual features youtube videos lrs3-ted public corpus

发现论文，激发创造

基于 Transformer 的多分辨率和多模式语音识别

本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别（AV-ASR）系统，特别关注视觉信息提供的场景背景，以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示，并使用附加的跨模态多头注意层融合视频特征。此外，我们还采用多任务培训标准用于多分辨率 ASR，同时训练模型生成字符和子词级转录。实验结果表明，多分辨率训练可以加速收敛速度约 50％，并且相对于子词预测模型，单词错误率（WER）性能提高了高达 18％。此外，融合视觉信息可以改善表现，在仅使用音频模型的基础上，相对增益高达 3.76％。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。

Apr, 2020

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

音视频语音识别的循环神经网络转录器

本研究提出了一种基于循环神经网络转录者（RNN-T）架构的大规模视音频语音识别系统，并通过比较语音，视觉和视听系统在两个大词汇测试集上的表现，以及在带噪声和重叠的人工干扰的数据上的表现，突显了视觉模态的贡献。据我们所知，我们的系统显著改善了现有技术在公开数据集 LRS3-TED 上的表现。

Nov, 2019

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

基于 Transformer 的视频表示的视听场景感知对话生成

本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog（AVSD）中解决长期时间视觉依赖和全局视觉信息的问题，并在答案生成方面取得了更高的目标性能评分。

Feb, 2022

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023

音频 - 视觉微调的音频识别模型

使用简单且快速的音频自我监督学习方法，并进行音视频模型的有指导微调，可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争，并且更为高效和快速。

Dec, 2023

AVFormer: 为冻结的语音模型注入视觉信息以实现零样本 AV-ASR

AVFormer 是一种简单的方法，使用轻量级可训练的适配器将视觉嵌入注入到冻结的语音识别模型中，并引入了一种培训方案。同时用小量且弱标注视频数据进行培训。实验结果表明，该方法在三个不同的音视频 ASR 基准（How2、VisSpeech 和 Ego4D）上取得了最先进的零 - shot 结果，同时在传统的仅语音识别基准（LibriSpeech）上表现良好。

Mar, 2023

音频感知的查询增强变换器用于音频 - 视觉分割

通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征，我们提出了一种新颖的音频感知查询增强转换器 (AuTR)，用于解决音频 - 视觉分割任务。实验结果表明，我们的方法在多声音和开放场景中具有更好的普适性和性能优势。

Jul, 2023

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018