OWSM-CTC：一种用于语音识别、翻译和语种识别的开放式编码器语音基础模型

Feb, 2024

OWSM-CTC：一种用于语音识别、翻译和语种识别的开放式编码器语音基础模型

OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification

Yifan Peng, Yui Sudo, Muhammad Shakeel, Shinji Watanabe

TL;DR基于连接主义时间分类（CTC）的新型仅编码器语音模型（OWSM-CTC）在多语言自动语音识别（ASR），语音翻译（ST）和语言识别（LID）任务上取得了有竞争力的结果，并在 ST 上提高了 25％的相对改进，在推断中更为稳健且速度更快，同时也对长形式 ASR 结果有 20 倍的加速。

Abstract

There has been an increasing interest in large speech models that can perform multiple speech processing tasks in a single model. Such models usually adopt the encoder-decoder or decoder-only architecture due to their popularity and good performance in many domains. However, autoregres

large speech models encoder-decoder architecture non-autoregressive models speech-to-text generation open whisper-style speech model (owsm)

发现论文，激发创造

自注意力网络在语音识别中的连接主义时间分类

本文提出了 SAN-CTC，是一种基于自注意力机制和 CTC 的深度神经网络，用于实现端到端的语音识别，经过评估，相比于现有的 CTC 模型和编码器 - 解码器模型，具有更好的性能。

Jan, 2019

改进的 Mask-CTC 用于非自回归端到端 ASR

为了实现自动语音识别的实时应用，并降低计算资源需求，本文结合 Conformer 结构和辅助目标预测方法，提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上，同时使推理速度不下降，结果超越标准 CTC 模型。

Oct, 2020

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Oct, 2022

基于公共语音识别语料训练的仅解码器模型的极限探索

本文研究了使用公共英语 ASR 语料库训练仅解码器模型（DOTA）相比于基于编码器 - 解码器的开源复制模型（OWSM）和 Whisper 的大型语言模型（Whisper large-v3），在几乎所有英语 ASR 基准测试集上取得更好的性能，并在 15 个测试集中的 7 个上超过了 Whisper。我们在宽松许可下发布了我们的代码库和模型检查点。

Jan, 2024

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

Mask CTC：基于 CTC 和 Mask 预测的非自回归端到端 ASR

本文提出了 Mask CTC 框架，它是一种新颖的非自回归端到端自动语音识别（ASR）框架，它通过加强 CTC 的输出来生成序列，并使用 Transformer 编码器 - 解码器进行训练。实验结果表明，相比标准的 CTC 模型，Mask CTC 模型在不同的语音识别任务中表现更优，并显著减少了推理时间。

May, 2020

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

具有 CTC 嵌入的语言增强变压器模型用于语音识别

本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器，它通过在训练过程中将改进的 CTC 信息引入解码器，从而使其更加鲁棒，在 AISHELL-1 语音语料库上的实验表明，字符误差率（CER）减少了高达 7％，同时发现在联合 CTC-Attention ASR 模型中，解码器对语言信息比声学信息更敏感。

Oct, 2022