使用音素级模型进行非流畅语音的弱监督强制对齐
本论文提出一种模型,结合 IBM Model 2 和 k-means 聚类,使用动态时间规整作为距离度量,在极低资源情况下,该模型比神经模型表现更好,可用于将翻译的语音数据自动对齐。
Sep, 2016
使用 Omni-temporal Classification(OTC)训练自动语音识别(ASR)模型,可以有效地学习语音文本对齐并适应训练文本中的错误,从而避免在包含高达 70% 错误的文本情况下出现性能下降,与 CTC 模型完全失败的情况不同。
Sep, 2023
本文旨在创建弱对齐监督以辅助端到端建模,在已有的混合 ASR 系统中产生训练音频的三音素对齐。我们在编码器的某一层上使用这些对齐创建交叉熵损失。与一般的一位有效交叉熵损失或带有损失加权的方法不同,我们在此使用带有标签平滑参数的交叉熵损失来规范监督。与使用一位有效交叉熵损失和带有损失加权的 CTC 损失进行实验相比,结果显示将弱对齐监督与标签平滑参数 0.5 放置在第三个编码器层上的方法优于另外两种方法,在 TED-LIUM 2 数据集上相对词错误率减小约 5%。将该方法直接应用于一个塔加路语端到端 ASR 系统时也得到类似的改进。
Nov, 2023
提出了一种利用 Bypass Temporal Classification (BTC) 方法来扩大微调自动语音识别模型 (CNN) 准确性的算法,并且该算法构建了一个基于加权有限状态转换器 (WFST) 的可变性训练图来明确地编码训练期间的不确定性,从而改善了处理精度不高的语音资源库时 ASR 系统的健壮性和准确性。
Jun, 2023
本文提出了基于自监督域适应的算法,采用迭代式伪强制对齐算法生成的对齐文本,用于定制端到端自动语音识别,并通过降低文本量或扩展对齐窗口的方法迭代计算文本对齐更新。算法精良地运用帧级字符概率、CTC 损失计算等技术,实现了对主流语音数据库的高精度音频文本对齐、领域自适应和半监督训练。
Oct, 2022
为了改善 Connectionist temporal classification (CTC) 模型的尖峰行为并提高其在强制对齐生成中的适用性,本文通过利用标签先验知识来增加路径中空白部分较少的对齐得分并在训练中将其最大化,从而使得我们的 CTC 模型产生更少尖峰的后验概率并能够更准确地预测令牌的偏移,相较于标准的 CTC 模型和基于启发式的方法,我们的方法在 Buckeye 和 TIMIT 数据上在音素和词边界错误 (PBE 和 WBE) 上的表现提高了 12-40%;与广泛使用的强制对齐工具 Montreal Forced Aligner(MFA)相比,我们的方法在 Buckeye 的 PBE/WBE 上表现类似,但在 TIMIT 上稍逊。然而,我们的方法具有更简单的训练流程和更高的运行效率。我们的训练步骤和预训练模型已在 TorchAudio 中发布。
Apr, 2024
自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的 ASR 处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性,而且为能够适应更广泛的语音变化的 ASR 铺平了道路。
Jun, 2024
演讲不流利建模是语言治疗和语言学习的瓶颈,但是目前还没有人工智能解决方案来系统地解决这个问题。我们首先提出定义不流利演讲和不流利演讲建模的概念。然后,我们介绍了一种名为 H-UDM(Hierarchical Unconstrained Dysfluency Modeling)的方法来解决不流利演讲的转录和检测问题,从而消除了对大量手工注释的需求。此外,我们还推出了一个名为 VCTK++ 的模拟不流利数据集,以增强 H-UDM 在语音转录方面的能力。我们的实验结果证明了我们提出的方法在转录和检测任务中的有效性和稳健性。
Jan, 2024
基于音素识别、表示学习和知识迁移,本文提出了一种新颖的文本无关音频对齐方法,利用自监督模型、维度降低模型和基于帧级音素分类器的强制对齐标签来产生多语言语音学表示,取得了优于传统方法的统计指标表现,在语言学习和语音处理系统中有应用意义。
May, 2024
本文研究了一组用于混乱语音识别的数据增强技术,包括声道长度扰动(VTLP)、节奏扰动和速度扰动,并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献(LHUC)的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92%绝对(9.3%相对)的词错误率(WER),并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37%的整体 WER。
Jan, 2022