视觉语音识别只需拟态

Feb, 2023

Conformers are All You Need for Visual Speech Recogntion

Oscar Chang, Hank Liao, Dmitriy Serdyuk, Ankit Shah, Olivier Siohan

TL;DR提出采用线性视觉前端结合更大 Conformer 编码器来实现更低的延迟，更高的内存效率和更好的 WER 性能，从而达到新的 TED LRS3 数据集上的视觉语音识别的最佳性能。

Abstract

visual speech recognition models extract visual features in a hierarchical manner. At the lower level, there is a visual front-end with a limited temporal receptive field that processes the raw pixels depicting the lips or faces. At the higher level, there is an →

visual speech recognition hierarchical models encoder conformer wer performance

发现论文，激发创造

使用 Conformers 的端到端音视频语音识别

本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer)，可以进行端到端的训练。在语音识别方面取得了具有突破性的进展，实现了最先进效果。

Feb, 2021

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

高效的构象器：渐进式下采样和分组注意力用于自动语音识别

本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明，该架构相比于 Conformer 速度更快，性能更好，且包含更少的参数。

Aug, 2021

HyperConformer：用于高效语音识别的多头超级混合器

本文介绍了一种名为 HyperConformer 的语音识别结构，它通过引入高效的 HyperMixer 机制，实现了对于长输入序列较为经济的全局交互建模，并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。

May, 2023

基于自适应的 Conformer 的连续手语识别与无监督预训练

该研究通过使用 Conformer 和 Cross-Modal Relative Attention (CMRA) 来进行连续手语识别，利用 Regressional Feature Extraction 进行预训练，证明了这些方法在 PHOENIX-2014 和 PHOENIX-2014T 两个基准数据集上取得了最好的成果。

May, 2024

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

自动语音识别中替代 CNN 前端的多视角频率 - 注意力算法

采用 F-Attention 模块替代卷积神经网络前端，在语音识别系统中全局关注频率可以显著减少相对字错率。

Jun, 2023

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

使用自监督转换器的通用语音语音语言表示

本研究介绍了一种基于 Conformer 架构的自我监督训练的优秀的全语境表示法，应用于多元语音任务，分析了上下文窗口的大小并证明了小窗口仍能取得接近最优表现。

Oct, 2021