从有缺陷的数据中学习：弱监督的自动语音识别

Sep, 2023

从有缺陷的数据中学习：弱监督的自动语音识别

Learning from Flawed Data: Weakly Supervised Automatic Speech Recognition

Dongji Gao, Hainan Xu, Desh Raj, Leibny Paola Garcia Perera, Daniel Povey...

TL;DR使用 Omni-temporal Classification（OTC）训练自动语音识别（ASR）模型，可以有效地学习语音文本对齐并适应训练文本中的错误，从而避免在包含高达 70% 错误的文本情况下出现性能下降，与 CTC 模型完全失败的情况不同。

Abstract

Training automatic speech recognition (ASR) systems requires large amounts of well-curated paired data. However, human annotators usually perform "non-verbatim" transcription, which can result in poorly trained models. In this paper, we propose →

automatic speech recognition omni-temporal classification label uncertainties training transcripts performance degradation

发现论文，激发创造

弱监督不完美转录下的自动语音识别：绕过时间分类

提出了一种利用 Bypass Temporal Classification (BTC) 方法来扩大微调自动语音识别模型 (CNN) 准确性的算法，并且该算法构建了一个基于加权有限状态转换器 (WFST) 的可变性训练图来明确地编码训练期间的不确定性，从而改善了处理精度不高的语音资源库时 ASR 系统的健壮性和准确性。

Jun, 2023

利用端到端自主训练的半监督自动语音识别

本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Jan, 2020

面向任务的对话作为自我监督的自动语音识别催化剂

通过对话的对比学习方法，在不成功的对话中发现易于检测的问题，从而提高自动语音识别模型在任务导向对话中的性能。

Jan, 2024

联合掩码 CPC 和 CTC 训练用于自动语音识别

这篇论文介绍了一种利用自监督学习方法，通过单阶段训练自动语音识别模型，利用标记数据和非标记数据来训练模型，实现了对下游任务性能的直接优化，并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率，最后提出解决对比任务是计算 CTC 损失的正则化的假设。

Oct, 2020

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

OWSM-CTC：一种用于语音识别、翻译和语种识别的开放式编码器语音基础模型

基于连接主义时间分类（CTC）的新型仅编码器语音模型（OWSM-CTC）在多语言自动语音识别（ASR），语音翻译（ST）和语言识别（LID）任务上取得了有竞争力的结果，并在 ST 上提高了 25％的相对改进，在推断中更为稳健且速度更快，同时也对长形式 ASR 结果有 20 倍的加速。

Feb, 2024

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

ASR 是你所需要的：用于唇读的跨模态蒸馏

本研究旨在使用自动语音识别模型进行视觉语音识别的强化学习，通过跨媒体蒸馏方法将 Connectionist Temporal Classification（CTC）与逐帧交叉熵损失相结合，以无标注的视频数据来提高效果和速度，并在 LRS2 和 LRS3 数据集上实现了最先进的结果。

Nov, 2019

使用音素级模型进行非流畅语音的弱监督强制对齐

本文提出了一种基于加权有限状态转换的 CTC 模型对齐算法，通过对常见口吃现象的刻画，提高了自动语音对齐的准确性和鲁棒性。在 TIMIT 数据集和 UCLASS 数据集上的实验结果表明，该算法的召回率有了显著提高。

May, 2023