使用声学 CTC 损失进行迭代伪强制齐次化，以进行自监督 ASR 领域适应

Oct, 2022

使用声学 CTC 损失进行迭代伪强制齐次化，以进行自监督 ASR 领域适应

Iterative pseudo-forced alignment by acoustic CTC loss for self-supervised ASR domain adaptation

Fernando López, Jordi Luque

TL;DR本文提出了基于自监督域适应的算法，采用迭代式伪强制对齐算法生成的对齐文本，用于定制端到端自动语音识别，并通过降低文本量或扩展对齐窗口的方法迭代计算文本对齐更新。算法精良地运用帧级字符概率、CTC 损失计算等技术，实现了对主流语音数据库的高精度音频文本对齐、领域自适应和半监督训练。

Abstract

High-quality data labeling from specific domains is costly and human time-consuming. In this work, we propose a self-supervised domain adaptation method, based upon an iterative pseudo-forced alignment algorithm.

self-supervised domain adaptation automatic speech recognition ctc loss audio-text alignment

发现论文，激发创造

CTC 对齐提高自回归翻译

这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用，并提出了 CTC/attention 的联合模型，改进了传统 attention 模型的训练表现和效果。

Oct, 2022

利用端到端自主训练的半监督自动语音识别

本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Jan, 2020

联合掩码 CPC 和 CTC 训练用于自动语音识别

这篇论文介绍了一种利用自监督学习方法，通过单阶段训练自动语音识别模型，利用标记数据和非标记数据来训练模型，实现了对下游任务性能的直接优化，并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率，最后提出解决对比任务是计算 CTC 损失的正则化的假设。

Oct, 2020

通过标签先验使 CTC 强制对齐更加平滑和准确

为了改善 Connectionist temporal classification (CTC) 模型的尖峰行为并提高其在强制对齐生成中的适用性，本文通过利用标签先验知识来增加路径中空白部分较少的对齐得分并在训练中将其最大化，从而使得我们的 CTC 模型产生更少尖峰的后验概率并能够更准确地预测令牌的偏移，相较于标准的 CTC 模型和基于启发式的方法，我们的方法在 Buckeye 和 TIMIT 数据上在音素和词边界错误 (PBE 和 WBE) 上的表现提高了 12-40%；与广泛使用的强制对齐工具 Montreal Forced Aligner（MFA）相比，我们的方法在 Buckeye 的 PBE/WBE 上表现类似，但在 TIMIT 上稍逊。然而，我们的方法具有更简单的训练流程和更高的运行效率。我们的训练步骤和预训练模型已在 TorchAudio 中发布。

Apr, 2024

使用合成数据的端到端自适应语音识别系统的简单基线

本文提出了一种简单的基线技术，使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据，并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调，结果表明，单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.

Jun, 2022

TIPAA-SSL: 基于自监督学习和知识迁移的文本无关电话音频对齐

基于音素识别、表示学习和知识迁移，本文提出了一种新颖的文本无关音频对齐方法，利用自监督模型、维度降低模型和基于帧级音素分类器的强制对齐标签来产生多语言语音学表示，取得了优于传统方法的统计指标表现，在语言学习和语音处理系统中有应用意义。

May, 2024

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

基于 CTC 的 ASR 的上下文感知知识迁移策略

该研究利用一种上下文感知的知识传递策略为基于 CTC 的自动语音识别模型注入语言学信息，提高了其性能表现，通过实验证明了该方法在 AISHELL-1 和 AISHELL-2 数据集上的有效性。

Oct, 2022

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

基于对比学习的多语言音频与歌词对齐

本文介绍了一种新颖的歌词对齐系统，使用对抗学习导出跨模态嵌入，不仅训练简单、能使用弱标注数据、学习强大的文本模型，而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。

Jun, 2023