通过标签先验使 CTC 强制对齐更加平滑和准确

Apr, 2024

通过标签先验使 CTC 强制对齐更加平滑和准确

Less Peaky and More Accurate CTC Forced Alignment by Label Priors

Ruizhe Huang, Xiaohui Zhang, Zhaoheng Ni, Li Sun, Moto Hira...

TL;DR为了改善 Connectionist temporal classification (CTC) 模型的尖峰行为并提高其在强制对齐生成中的适用性，本文通过利用标签先验知识来增加路径中空白部分较少的对齐得分并在训练中将其最大化，从而使得我们的 CTC 模型产生更少尖峰的后验概率并能够更准确地预测令牌的偏移，相较于标准的 CTC 模型和基于启发式的方法，我们的方法在 Buckeye 和 TIMIT 数据上在音素和词边界错误 (PBE 和 WBE) 上的表现提高了 12-40%；与广泛使用的强制对齐工具 Montreal Forced Aligner（MFA）相比，我们的方法在 Buckeye 的 PBE/WBE 上表现类似，但在 TIMIT 上稍逊。然而，我们的方法具有更简单的训练流程和更高的运行效率。我们的训练步骤和预训练模型已在 TorchAudio 中发布。

Abstract

connectionist temporal classification (CTC) models are known to have peaky output distributions. Such behavior is not a problem for automatic speech recognition (ASR), but it can cause inaccurate forced alignments (FA), especially at finer granularity, e.g., phoneme level. This paper a

connectionist temporal classification peaky output distributions label priors forced alignment generation training pipeline

发现论文，激发创造

使用声学 CTC 损失进行迭代伪强制齐次化，以进行自监督 ASR 领域适应

本文提出了基于自监督域适应的算法，采用迭代式伪强制对齐算法生成的对齐文本，用于定制端到端自动语音识别，并通过降低文本量或扩展对齐窗口的方法迭代计算文本对齐更新。算法精良地运用帧级字符概率、CTC 损失计算等技术，实现了对主流语音数据库的高精度音频文本对齐、领域自适应和半监督训练。

Oct, 2022

CTC 对齐提高自回归翻译

这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用，并提出了 CTC/attention 的联合模型，改进了传统 attention 模型的训练表现和效果。

Oct, 2022

与目标对齐：利用通用即插即用框架优化 CTC 模型所需属性

提出了一种名为 $ extit {Align With Purpose}$ 的通用 Plug-and-Play 框架用于在 Automatic Speech Recognition 等领域中，通过 CTC 和附加的损失项优化各种功能，例如发射时间和单词错误率，以实现对齐的改善和性能提升。

Jul, 2023

使用非尖峰 CTC 提高端到端自动语音识别中单词时间的帧级分类器

本文提出了一种在 E2E 系统中改进字时分类器的方法，该方法采用了传统的 CTC 损失连接与低级别 Mel-scale 滤波器和高级 ASR 编码器输出相结合的输入特征。与混合系统和之前的 E2E 方法相比，在内部中文语料库上，提出的方法在字时准确性指标上分别取得了 95.68％/94.18％的成绩，并通过延迟 CTC 峰值来进一步提高了字时准确性。

Jun, 2023

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Oct, 2022

使用音素级模型进行非流畅语音的弱监督强制对齐

本文提出了一种基于加权有限状态转换的 CTC 模型对齐算法，通过对常见口吃现象的刻画，提高了自动语音对齐的准确性和鲁棒性。在 TIMIT 数据集和 UCLASS 数据集上的实验结果表明，该算法的召回率有了显著提高。

May, 2023

改进的 Mask-CTC 用于非自回归端到端 ASR

为了实现自动语音识别的实时应用，并降低计算资源需求，本文结合 Conformer 结构和辅助目标预测方法，提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上，同时使推理速度不下降，结果超越标准 CTC 模型。

Oct, 2020

基于 CTC 的 ASR 模型知识蒸馏与 BERT

本研究提出使用 BERT 来优化基于 CTC 的自动语音识别，通过计算最合理的 CTC 路径获得对齐，并且不影响 CTC 的快速推理速度。实验结果显示，该方法提高了识别准确率而不影响推理速度。

Sep, 2022

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

空白坍塌：压缩 CTC 发射以实现更快的解码

本文分析了 CTC 束搜索中的空白标签并提出了一种简单的方法来减少计算量，提高解码速度，实验和理论都证明了该方法的有效性，并且发现该方法在模型准确率更高时效果更加明显，适用于 ASR 领域。

Oct, 2022