弱监督不完美转录下的自动语音识别：绕过时间分类

Jun, 2023

弱监督不完美转录下的自动语音识别：绕过时间分类

Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts

Dongji Gao, Matthew Wiesner, Hainan Xu, Leibny Paola Garcia, Daniel Povey...

TL;DR提出了一种利用 Bypass Temporal Classification (BTC) 方法来扩大微调自动语音识别模型 (CNN) 准确性的算法，并且该算法构建了一个基于加权有限状态转换器 (WFST) 的可变性训练图来明确地编码训练期间的不确定性，从而改善了处理精度不高的语音资源库时 ASR 系统的健壮性和准确性。

Abstract

This paper presents a novel algorithm for building an automatic speech recognition (ASR) model with imperfect training data. Imperfectly transcribed speech is a prevalent issue in human-annotated speech corpora, which degrades the performance of ASR models. To address this problem, we

automatic speech recognition imperfect training data connectionist temporal classification weighted finite-state transducer asr systems

发现论文，激发创造

从有缺陷的数据中学习：弱监督的自动语音识别

使用 Omni-temporal Classification（OTC）训练自动语音识别（ASR）模型，可以有效地学习语音文本对齐并适应训练文本中的错误，从而避免在包含高达 70% 错误的文本情况下出现性能下降，与 CTC 模型完全失败的情况不同。

Sep, 2023

利用端到端自主训练的半监督自动语音识别

本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Jan, 2020

使用音素级模型进行非流畅语音的弱监督强制对齐

本文提出了一种基于加权有限状态转换的 CTC 模型对齐算法，通过对常见口吃现象的刻画，提高了自动语音对齐的准确性和鲁棒性。在 TIMIT 数据集和 UCLASS 数据集上的实验结果表明，该算法的召回率有了显著提高。

May, 2023

细致的耳语：利用自动语音识别的进展进行稳健和可解释的失语症亚型分类

该研究提出了一种全自动的方法来识别语音记录中的语音异常，以帮助评估语音障碍。结合连续时间分类（CTC）和基于编码器 - 解码器的自动语音识别模型，生成丰富的声学和干净的转录本。然后，应用几种自然语言处理方法从这些转录本中提取特征，以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征，可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外，可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言，并显示出从语音诊断标志提取的强大前景。

Aug, 2023

联合掩码 CPC 和 CTC 训练用于自动语音识别

这篇论文介绍了一种利用自监督学习方法，通过单阶段训练自动语音识别模型，利用标记数据和非标记数据来训练模型，实现了对下游任务性能的直接优化，并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率，最后提出解决对比任务是计算 CTC 损失的正则化的假设。

Oct, 2020

时间戳嵌入匹配声学到词汇 CTC 自动语音识别

本文提出了一种新颖的嵌入匹配语音识别器，它直接产生了单词的起始时间和持续时间，并可以在测试时输出单词分割和单词混淆网络，同时相对于非时间戳系统，Word timestamps 可以使得系统获得类似于混合 DNN-HMM 系统的单词分割准确度和不到 3ms 的较小差异，我们提供了多重假设嵌入匹配 ASR 的更严格的分析。

Jun, 2023

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

基于 CTC 的 ASR 的上下文感知知识迁移策略

该研究利用一种上下文感知的知识传递策略为基于 CTC 的自动语音识别模型注入语言学信息，提高了其性能表现，通过实验证明了该方法在 AISHELL-1 和 AISHELL-2 数据集上的有效性。

Oct, 2022

CTC 基础语音识别中的中间损失正则化

本文提出了一种基于 CTC 目标的自动语音识别（ASR）的简单而高效的辅助损失函数，结合随机深度训练，应用于最近提出的 Conformer 网络，能够在没有语言模型的情况下实现 9.9％的单词错误率和 5.2％的字符错误率。

Feb, 2021

ASR 是你所需要的：用于唇读的跨模态蒸馏

本研究旨在使用自动语音识别模型进行视觉语音识别的强化学习，通过跨媒体蒸馏方法将 Connectionist Temporal Classification（CTC）与逐帧交叉熵损失相结合，以无标注的视频数据来提高效果和速度，并在 LRS2 和 LRS3 数据集上实现了最先进的结果。

Nov, 2019