基于混合 CTC / 注意力架构的音视频语音识别

Sep, 2018

基于混合 CTC / 注意力架构的音视频语音识别

Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture

Stavros Petridis, Themos Stafylakis, Pingchuan Ma, Georgios Tzimiropoulos, Maja Pantic

TL;DR本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型，并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点，并且在噪声环境下表现出色，是当前状态下最新的结果。

Abstract

Recent works in speech recognition rely either on connectionist temporal classification (CTC) or sequence-to-sequence models for character-level recognition. CTC assumes conditional independence of individual characters, whereas attention-based models can provide nonsequential alignmen

speech recognition ctc/attention architecture audio-visual model word error rate lrs2 database

发现论文，激发创造

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

传统混合解码器与 CTC / 注意力解码器在连续视觉语音识别中的比较

通过对少样本数据情况下传统 DNN-HMM 解码器和先进的 CTC/Attention 解码器的研究比较，我们发现传统范式在数据稀缺的情况下具有更好的识别率、较短的训练时间和更少的参数。

Feb, 2024

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

自注意力网络在语音识别中的连接主义时间分类

本文提出了 SAN-CTC，是一种基于自注意力机制和 CTC 的深度神经网络，用于实现端到端的语音识别，经过评估，相比于现有的 CTC 模型和编码器 - 解码器模型，具有更好的性能。

Jan, 2019

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Oct, 2022

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018