从有缺陷的数据中学习:弱监督的自动语音识别
提出了一种利用 Bypass Temporal Classification (BTC) 方法来扩大微调自动语音识别模型 (CNN) 准确性的算法,并且该算法构建了一个基于加权有限状态转换器 (WFST) 的可变性训练图来明确地编码训练期间的不确定性,从而改善了处理精度不高的语音资源库时 ASR 系统的健壮性和准确性。
Jun, 2023
本文提出了一种基于端到端系统的自学习半监督自动语音识别方法,通过对无监督数据的伪标记迭代地增强有标记的数据,从而提高系统性能,实现数据增强效果,获得了 14.4% 的相对识别错误率改进。
Jan, 2020
这篇论文介绍了一种利用自监督学习方法,通过单阶段训练自动语音识别模型,利用标记数据和非标记数据来训练模型,实现了对下游任务性能的直接优化,并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率,最后提出解决对比任务是计算 CTC 损失的正则化的假设。
Oct, 2020
探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法在干净和嘈杂的数据上的效果。
Apr, 2018
基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在 ST 上提高了 25%的相对改进,在推断中更为稳健且速度更快,同时也对长形式 ASR 结果有 20 倍的加速。
Feb, 2024
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020
研究了训练简单的语音处理系统预测互联网音频大量转录的能力,在 680,000 小时的多语言和多任务监督的基础上,生成的模型具有很好的泛化能力,并且通常与之前的完全监督结果竞争,但在零次传输设置下不需要进行任何微调,与人类相比,模型的准确性和稳健性接近,并且同时发布了模型和推理代码,作为进一步稳健语音处理工作的基础。
Dec, 2022
本研究旨在使用自动语音识别模型进行视觉语音识别的强化学习,通过跨媒体蒸馏方法将 Connectionist Temporal Classification(CTC)与逐帧交叉熵损失相结合,以无标注的视频数据来提高效果和速度,并在 LRS2 和 LRS3 数据集上实现了最先进的结果。
Nov, 2019
本文提出了一种基于加权有限状态转换的 CTC 模型对齐算法,通过对常见口吃现象的刻画,提高了自动语音对齐的准确性和鲁棒性。在 TIMIT 数据集和 UCLASS 数据集上的实验结果表明,该算法的召回率有了显著提高。
May, 2023